迄今“最強大”、碾壓GPT4……谷歌AI大模型問世,馬斯克也點贊!股價大漲

迄今“最強大”、碾壓GPT4……谷歌AI大模型問世,馬斯克也點贊!股價大漲
2023年12月07日 22:41 證券時報

專題:埃隆·馬斯克與他的商業世界

當地時間12月6日,美國科技公司谷歌推出了Gemini大模型。與大語言模型ChatGPT不同,Gemini大模型是原生多模態大模型,不僅可以處理文本內容,還可以無縫絲滑地處理代碼、音頻、圖像和視頻等多種模態的信息。據介紹,這是谷歌目前規模最大、能力最強的大模型。

Gemini大模型一經推出,便引發了科技圈的“地震”,業內多名人士都對Gemini大模型表達了祝賀與贊美。根據谷歌給出的基準測試結果,Gemini大模型在大部分測試當中都打敗了OpenAI的ChatGPT4,顯示了先進的性能。

今日美股盤前,谷歌A、谷歌C均大幅上漲,一度漲約4%。開盤后,谷歌股價保持高位,截至發稿,谷歌A漲4.88%,谷歌C漲超5%。

主打“原生多模態”,30項測試結果超越GPT4

“Gemini 是我們迄今為止最強大、最通用的模型,它在許多領先的基準測試中都展現出了最先進的性能。”在Gemini大模型發布的公開信中,谷歌CEO桑達爾·皮查伊如此說道。谷歌DeepMind的CEO和聯合創始人德米斯·哈薩比斯代表團隊對Gemini大模型進行了詳細介紹。

綜合來看,谷歌此次發布的Gemini大模型主要有以下幾個亮點:

三個版本:提供三種不同的尺寸,實現從云上到手機、平板都可以運行。據谷歌介紹,尺寸由大至小分別為Gemini Ultra(規模最大且功能最強大,適用于高度復雜的任務)、Gemini Pro(適用于各種任務的最佳模型)和Gemini Nano(端側設備上最高效的模型)。

多種模態:據介紹,Gemini大模型從一開始就被創建為多模態的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

性能卓越:性能測試方面,在32項性能基準測試中的30項上,Gemini Ultra模型超越了現有最先進的GPT4。其中,在MMLU(大規模多任務語言理解)測試中,Gemini Ultra以90.0%的成績首次超過了人類專家。

具備更強的理解、推理和編碼能力:可以在海量的數據中發掘難以辨別的知識內容;尤其擅長解釋數學和物理等復雜科目中的推理;可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼,能夠跨語言工作并對復雜信息進行推理,這些能力使其成為世界領先的編碼基礎模型之一。

以上這些亮點中,多模態信息識別、理解與處理能力無疑是谷歌Gemini大模型最令人感到驚艷的一個能力。在一個測評視頻中,測評人讓Gemini看一系列的影像,并要求Gemini推理所看到的內容。記者看到,當測評人繪制一幅圖片的時候,Gemini可以實時描述它所“看”到的畫面。更奇妙的是,當測評人展示兩張斜坡上的車輛圖片,問“從設計上看,哪個車會跑得更快?”時,Gemini會問答:“右邊的車更快,它更符合空氣動力學。”

Gemini大模型卓越的性能引得科技圈人士紛紛點贊。比如,特斯拉CEO埃隆·馬斯克在桑達爾·皮查伊在社交平臺X上的發布帖下評論稱:“令人印象深刻。”除此以外,馬斯克還對谷歌DeepMind的CEO、Gemini團隊代表德米斯·哈薩比斯表示了祝賀。

AI進入多模態時代,帶動算力賽道持續繁榮

一名人工智能研發人員向記者表示,谷歌Gemini模型的核心優勢在于其原生多模態的特性。具體而言,以往的多模態大模型是通過針對不同模態訓練單獨的組件,然后把這些組件組合起來,模擬多模態功能。雖然在單獨和具體的任務上表現良好,但在處理需要更深層次概念理解和復雜推理的任務時,表現往往不盡人意。

“不像OpenAI那樣為圖像和語音訓練獨立的DALL-E和Whisper模型,谷歌從一開始就構建了一個多感官模型。”該研發人員表示。

近期,以語音、圖片、視頻等為主要代表的多模態大模型站上風口。記者梳理發現,多家國內外科技公司密集發布了相關產品。

語音方面,11月22日,Meta官網發出公告,推出了一款多語言和多任務模型SeamlessM4T,可用于無縫翻譯和轉錄語音和文本。據悉,SeamlessM4T的主要能力包括自動識別近百種語言的語音、語音翻譯、文本轉語音翻譯等。

圖像及視頻方面,11月16日,Meta官網發布文生視頻模型Emu Video和圖像編輯模型Emu Edit。11月29日,美國初創公司Pika Labs發布了文生視頻工具Pika1.0,支持對視頻進行實時編輯和修改;12月5日,美圖發布AI視覺大模型MiracleVision的4.0版本,新增AI設計與AI視頻兩大能力。其中,AI設計具備四大功能,包括矢量圖形、文字特效、智能分層和智能排版,可以滿足AI設計的基礎需求。

業內人士普遍認為,多模態是生成式AI下一步的重點方向,百花齊放的應用場景有待繼續探索。東方證券研報認為,現階段大語言模型的競爭已經非常激烈,從技術突破的角度來看,下一階段的重點攻克方向必然是多模態技術。能夠真正處理和應用好多模態AI能力,才能真正打通物理世界和數字世界的障壁,用最基礎的感知世界能力直接生成操作,實現與物理世界最自然的交互。

中信證券研報指出,隨著谷歌Gemini模型發布,AI進入多模態時代。短期來看,Gemini的發布將進一步激發市場對多模態模型的期待,對產業而言,多模態料將帶動算力需求的提升;而在中長期來看,預計多模態模型的升級將豐富相關產品的使用場景,疊加硬件升級、算法優化帶來的成本優化,2C產品的進展值得期待。持續看好本輪生成式AI浪潮對科技產業的長周期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。

不過,相比于大語言模型,多模態大模型對算力的消耗呈指數級增長趨勢。國泰君安研報認為:當前多模態大模型仍在不斷迭代,訓練階段的算力將保持增長。根據測算,GPT4對于算力的需求在同等訓練時長下相比GPT3增長445倍。訓練成本持續高企,算力租賃商業模式具備可行性,短期持續看好算力以及算力租賃賽道。

股市回暖,抄底炒股先開戶!智能定投、條件單、個股雷達……送給你>>
海量資訊、精準解讀,盡在新浪財經APP
谷歌 AI 伊隆-馬斯克 推理 圖像

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 12-18 鼎龍科技 603004 --
  • 12-15 國際復材 301526 --
  • 12-13 宏盛華源 601096 1.7
  • 12-12 興欣新材 001358 41
  • 12-12 西磁科技 836961 8.09
  • 新浪首頁 語音播報 相關新聞 返回頂部