谷歌兩小時I/O大會提了“AI”121次,發布了十余項更新及新品,卻“缺乏驚喜”

谷歌兩小時I/O大會提了“AI”121次,發布了十余項更新及新品,卻“缺乏驚喜”
2024年05月15日 07:23 澎湃新聞

專題:聚焦谷歌2024年I/O開發者大會:實時交互、視頻模型登場

·本次開發者全程兩個小時,谷歌CEO共提及“AI”121次,此次開發者大會,谷歌將搜索業務做了最徹底的AI改造,還更新升級了Gemini1.5Pro版本,同時推出Gemini1.5Flash輕量化小模型。此外,推出自稱效果超過Sora的生成視頻模型Veo。

北京時間5月15日凌晨,谷歌年度開發者I/O 大會2024在美國加利福尼亞州山景城總部附近的海岸線圓形劇場召開。整場發布會由谷歌CEO桑達爾·皮查伊(Sundar Pichai)主持,全程歷時兩小時。

前一天,OpenAI剛發布GPT-4o和全新的ChatGPT,此次谷歌要在開發者大會上交出怎樣的“AI”答卷外界充滿了期待。

澎湃科技(www.thepaper.cn)注意到,整場開發者大會,桑達爾·皮查伊稱,據Gemini統計,在整場發布會上他共提及“AI”121次,發布了十多項產品更新和新品,但外界評論稱,和GPT-4o不到30分鐘的發布會相比,“缺乏驚喜”。

谷歌年度開發者I/O 大會現場

此次開發者大會,谷歌將搜索業務做了最徹底的AI改造,還更新升級了Gemini1.5Pro版本,同時推出Gemini1.5Flash輕量化小模型。

除此之外,谷歌推出自稱效果超過Sora的生成視頻模型Veo,另外還展示了與GPT-4o 相似的語音視覺交互功能Gemini Live,同時,還更進一步推出了AI智能體Project Astra。

Gemini 升級,更加輕量

當天大會上,谷歌宣布對Gemini模型進行更新,此前,谷歌推出的Gemini 1.5 Pro是一個中型多模態模型,上下文長度為100萬tokens。

在此次開發者大會上,桑達爾·皮查伊宣布,將Gemini 1.5 Pro升級到200萬tokens,并全面支持Workspace,同時Gemini 1.5 Pro將面向全球開發者開放。

升級后的Gemini 1.5 Pro,在多項公共基準測試中取得了顯著改進,在多項圖像和視頻理解基準測試中也實現了最先進性能。此外Gemini 1.5 Pro還能夠遵循越來越復雜和細微的指示,包括指定產品級行為的指示,如角色、格式和風格等。

用戶可以通過 Gemini Advanced 訂閱服務體驗最新的Gemini 1.5 Pro,當前支持超過150個國家的35種語言。

為了滿足用戶對低延遲和低成本的需求,此次發布會,谷歌宣布,發布輕量化模型Gemini 1.5 Flash。

Gemini1.5Flash

相較于Gemini 1.5 Pro,該版本的特點是響應速度更快、成本低至0.35美元每百萬tokens。而Gemini 1.5 Pro則針對對高質量內容有需求的用戶,收費為7美元每百萬tokens。

盡管Gemini1.5 Flash體積小巧,仍實現了100萬個標記的長上下文窗口,開發人員還能注冊嘗試200萬個標記,適用于摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數據提取等多種任務。

從今天起,超過200個國家的用戶都可以在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。

值得注意的是,此次大會,谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級后的 Gemini Advanced 可以處理“多個大型文檔,總計最多 1500 頁,或匯總 100 封電子郵件。同時支持 35 多種語言和 150 多個國家及地區。

發布AI智能體Project Astra

“很久以來,我們都有一個夢想,希望打造一個通用的AI Agent(AI智能體),幫助人們的生活變得更方便。現在,我們多年磨一劍,推出 Project Astra 的通用 AI 智能體。”桑達爾·皮查伊在發布會上說。

大會現場,來自谷歌 Deepmind的 CEO 杰米斯·哈薩比斯(Demis Hassabis)上臺,講解和展示了Project Astra的原型運作視頻。

在展示過程中,谷歌在演講中展示了一個人拿著手機,將攝像頭對準辦公室的各個地方,并用語言與其交互:“當你看到有東西發出聲音時,請告訴我?!痹谶@段視頻演示中,Astra能識別各種物體甚至代碼,并實時與人類進行語音互動。

在展示環節,有用戶對Astra突然提出一個此前沒有涉及到的問題,“你記得我把眼鏡放哪里了么?”

“你的眼鏡在桌上蘋果旁邊?!盇stra回答到。這一過程引起現場驚呼。

這表明,當攝像頭掃過的時候,Astra曾“看”到過用戶的眼鏡,Astra以視覺的形式記錄了下來。

發布視頻生成模型Veo對抗Sora

此次發布會上,杰米斯·哈薩比斯宣布,谷歌正式發布一款全新的視頻生成模型Veo,將成為Sora新的勁敵。

谷歌聲稱,Veo能夠根據文本、圖像創建超過60秒的高質量1080P視頻,用戶可以對光照、鏡頭語言、視頻顏色風格等進行設定。此外,Veo還能夠理解電影和視覺技術,例如延時拍攝的概念。

用戶僅需寫出文本提示即可生成視頻,比如文本提示:“在寧靜的山地平移鏡頭,相機慢慢露出白雪皚皚的山峰、花崗巖巖石和倒映天空的清澈湖泊?!薄耙凰矣钪骘w船在浩瀚的太空中穿梭,星星劃過,高速,科幻”。

根據谷歌公布的演示視頻,Veo生成的小狗毛發十分細膩,走路動作、姿態也非常逼真。

搜索引擎升級,與Gemini結合

谷歌搜索負責人莉茲·里德( Liz Reid )在此次發布會上稱,在過往的25年里,谷歌經歷了許多技術變革,“我們不斷重新構想和擴展 Google 搜索的功能?!?/p>

莉茲·里德宣布,如今,借助AI,谷歌搜索可以做的事情超出人們的想象。她表示,將 Gemini 的先進功能(包括多步推理、規劃和多模態)與谷歌搜索系統結合在一起,推出AI Overviews。AI Overviews將首先在美國推出。通過AI Overviews,用戶可以上傳演示其要解決的問題的視頻,然后啟動搜索在論壇和互聯網的其他區域以找到解決方案。

此外,用戶也可以向定制的 Gemini 模型提出復雜的問題。甚至當用戶不知道自己問什么的時候,Google也可以給用戶推薦,給用戶做頭腦風暴。用戶還可以直接與 Gemini 聊天,從整個收件箱中查找詳細信息。

莉茲·里德稱,“從回答、計劃、需求定制到組織和視頻搜索,Google都會替你完成,而你需要做的只有提問。”

在大會進行到中途,澎湃科技注意到,桑達爾·皮查伊低調宣布了谷歌的第六代張量處理單元 (TPU) 稱為 Trillium,將于今年晚些時候向其云客戶提供。TPU 可能不是谷歌當今眾多人工智能更新中最華麗的,但它是其人工智能工作的重要組成部分。

據谷歌介紹,作為“迄今為止性能最強、能效最高的 TPU”,Trillium 宣稱與 TPU v5e 相比,每個芯片的峰值計算性能提高了 4.7 倍。

值得關注的是谷歌此次也在安卓平臺上推出一系列全新AI功能。谷歌表示,此前,"Circle to Search"功能允許用戶無需切換應用即可搜索,現在起它還可以作為學習伴侶,解答數學題、圖表等復雜問題。目前這一功能已在超過1億臺安卓設備上提供,預計到年底這一數字將翻倍。

海量資訊、精準解讀,盡在新浪財經APP
谷歌 AI 開發者大會

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 04-29 瑞迪智驅 301596 25.92
  • 04-25 歐萊新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 燦芯股份 688691 19.86
  • 03-27 無錫鼎邦 872931 6.2
  • 新浪首頁 語音播報 相關新聞 返回頂部