安裝新浪財經客戶端第一時間接收最全面的市場資訊→【下載地址】
作者: 劉佳
[ 從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項超過目前最先進的水平。 ]
在一段視頻中,一個男子做出后仰并躲避的慢動作,AI馬上猜出:這是表演《黑客帝國》中“子彈時間”的場景。
當人類拿起畫筆在一張紙上勾勒出一只鴨子,并為它涂上了藍色。這次AI說道:“這可不是鴨子常見的顏色。”
三個空杯并排放在桌子上,一張藍色紙團被塞進其中一個杯子里,在人類一番眼花繚亂的操作后,AI準確地猜出:“紙團在最左邊的杯子里!”
“喂”給AI一張手寫的物理題圖片,它不僅能看懂,而且還能分辨手寫答案的對錯,并給出一步步解決問題的細節。
上傳食材圖像和語音輸入,AI不僅可以指導你做菜,還能在不同階段提出相應的建議。
這些片段,是Google演示其在12月6日最新出爐的AI大模型Gemini的場景。
“我們離新一代人工智能模型的愿景越來越近了。”一系列視頻演示后,Google DeepMind產品副總裁Eli Collins(伊萊·柯林斯)對包括第一財經在內的媒體說,這是Google迄今為止功能最強大、最通用的大模型。
和市面上現有大模型相比,Gemini從一開始就被創建為多模態的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。在靈活度上,從數據中心到移動設備上,它都能夠運行。
Gemini被視作Google在AI大模型領域放出的“大招”。多年前,Google憑借AlphaGo的驚艷表現在全球掀起了一波AI浪潮。但這一次,在OpenAI的ChatGPT所引發的AI新浪潮中,Google面臨不小的壓力。眼下,Google迫切需要一款現象級AI產品,證明自己在人工智能領域的實力。
能打敗GPT4嗎?
就在Google發布最新大模型之前,微軟剛剛宣布了旗下AI助手Copilot重大升級,將接入OpenAI的最新模型GPT-4 Turbo。
“遲到總比不做好!終于有了OpenAI王座的有力競爭者。”在Google公布消息后,英偉達AI科學家Jim Fan(范麟熙)就第一時間轉發并評論。
Google CEO Sundar Pichai(桑達爾?皮查伊) 評價,Gemini這一新時代的模型代表了Google作為一家公司在科學和工程方面所做的最大努力之一。他同時提到,這也是Google今年早些時候成立Google DeepMind時的愿景首次實現。
Google Deepmind發布第一個版本Gemini 1.0,針對不同尺寸進行了優化,分別是Ultra、Pro和Nano。其中Gemini Ultra是目前Google規模最大、功能最強大的模型,適用于高度復雜的任務;Gemini Pro是適用于可擴展各種任務的模型;Gemini Nano主要是端側設備上的模型。
Gemini發布后,外界最關心的是其對OpenAI GPT4的挑戰。在采訪中,記者提問Eli Collins:“Gemini能打敗市面上包括GPT4在內所有的大模型嗎?”
Eli Collins在回答中表示,團隊一直在對Gemini模型進行嚴格的測試并評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平。
他援引了來自MMLU的測試結果,稱Gemini Ultra的得分率為90%,是第一個在MMLU測試中超過人類專家的模型,MMLU綜合使用了數學、物理、歷史、法律、醫學和倫理等57個科目,用于測試世界知識和解決問題的能力。作為對比,人類專家的得分率為89.8%,GPT4得分率為86.4%。
在多模態方面,Gemini Ultra在新的MMMU基準測試中也獲得了59.4%的SOTA分數。這項基準測試是由跨不同領域的多模式任務組成的,需要大模型進行深思熟慮的推理。
在包括文本和編碼在內的一系列基準測試中,Gemini的性能都超過了當前最先進的水平。
Goolge Gemini大模型多模態背后的技術原理也引發業界關注。Goolge DeepMind首席科學家杰夫·迪恩團隊為此撰寫了60頁技術報告來闡述。
截至目前,創建多模態模型的標準方法是分別訓練不同模態的組件,然后將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務,但在概念性更強、更復雜的推理方面卻顯得力不從心。
DeepMind CEO Demis Hassabis(戴密斯·哈薩比斯)透露,團隊將Gemini設計為原生多模態,從一開始就在不同模態上進行預訓練。然后,利用額外的多模態數據對其進行微調以進一步提高有效性。這有助于Gemini從最初階段就能對輸入的各種內容順暢地進行理解和推理,并優于現有的多模態模型。
而在Gemini多模態大模型的背后,是由Google自研的云芯片TPUs v4和v5e在通過AI優化過的基礎設施上,對Gemini 1.0進行大規模訓練。
當天,Google還發布了最新的TPU系統Cloud TPU v5p,稱訓練速度比前代快2.8倍,有望幫助開發者和企業客戶更快地訓練大規模生成式AI模型。
應用層比拼剛剛開始
目前看起來,在“跑分”上Google Gemini更勝一籌,但接下來,更重要的是各家大模型在實際應用中的比拼。
Eli Collins在接受第一財經等媒體采訪時說,Google希望建立新一代AI模型,它是由人們對世界的理解和互動而激發的,人工智能更像是一個樂于助人的合作者,而不像是一個聰明的軟件。
目前,Google旗下的聊天機器人Bard已經集成Gemini Pro的微調版本,在170多個國家和地區提供英語服務,并且計劃在未來幾個月內擴展不同的模態,并支持新的語言和地區。明年年初,Google還將推出Bard Advanced,提供Gemini Ultra模型的最佳性能。
在移動設備端,Google的Pixel 8 Pro成為首款搭載Gemini Nano的智能手機,它可以支持錄音總結、智能回復等AI功能,明年還將推出更多信息應用。
基于定制版的Gemini,谷歌推出了代碼生成系統AlphaCode 2。Google稱,在面對不僅涉及編程,還涉及復雜的數學和計算機科學理論等領域的問題時,AlphaCode 2都表現出了卓越的性能。
未來幾個月,Gemini將應用于Google更多的產品和服務,如Search、Ads、Chrome和Duet AI。
據透露,Google已經開始在Search中試驗Gemini,它能夠為用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了40%,同時在質量方面也有所提高。
而對于Google采取哪些努力來防止Gemini產生幻覺和事實錯誤,或被用來創造危險的工具和其他不道德的用途,Google方面人士也對記者進行了解答。
Google基礎設施與系統副總裁Amin Vahdat(阿明·瓦達特)對記者表示,Gemini在開發的各個階段都會考慮潛在的風險,并努力進行測試和降低這些風險。
他透露,Gemini的安全評估包括偏見和毒性評估,并應用了Google Research的對抗性測試技術,幫助在部署Gemini之前檢測關鍵的安全問題。
例如,為了在Gemini的訓練階段診斷內容安全問題,并確保其輸出符合政策,Google團隊使用了一些基準測試,例如真實毒性提示(Real Toxicity Prompts),這是一套由Allen Institute of AI的專家開發的基準測試,包含了從網絡上提取的10萬條具有不同程度毒性的提示。
此外,為了減少傷害,團隊還構建了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象等方面的內容。“此外,我們正繼續解決模型面臨的已知挑戰,例如事實性、基礎、歸因性以及協作性。”
Google沒有透露未來是否會專門為Gemini定制應用程序,但高管對記者表示,更加希望看到用戶在這種技術的基礎上創建更多的應用程序。
Google透露,從12月13日開始,開發者和企業客戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。
目前Google正對Gemini Ultra完成大規模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,并在其被廣泛應用前通過微調和人類反饋強化學習(RLHF)進一步完善模型。在這一過程中,Google將向部分客戶、開發者、合作伙伴以及安全和責任專家提供Gemini Ultra,以供其進行早期試驗和提供反饋。
據記者了解,Google將在明年初向開發者和企業客戶提供該模型。
責任編輯:周唯
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)