專題:聚焦谷歌2024年I/O開發者大會:實時交互、視頻模型登場
被OpenAI搶先一天后,科技巨頭谷歌不甘示弱,推出了自己的最新多模態AI(人工智能)產品。
當地時間5月14日,在谷歌I/O開發者大會上的主題演講中,谷歌展示了由升級后Gemini模型驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo,以及在硬件方面發布的第六代Tensor處理器單元(TPU)Trillium芯片。根據發布會最后的官方統計,完全聚焦于AI的這場主題演講總共提到了121次AI。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)表示,谷歌的所有工作都在圍繞生成式AI模型Gemini展開,“我們希望每個人都能從Gemini所做的事情中受益”。
14日當天,谷歌(Nasdaq:GOOGL)股價收于每股171.93美元,漲0.6%,總市值2.12萬億美元。
AI搜索支持視頻輸入,Gemini、Gemma上新
作為搜索引擎巨頭,AI搜索正是谷歌所做工作中的一部分。
據介紹,在最新Gemini的加持下,谷歌搜索將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題、幫助用戶進行頭腦風暴,并支持視頻搜索,讓用戶通過拍攝視頻來搜索解決方案。這些功能將先在美國推出,谷歌預計會在今年年底前將其帶給超過10億人。
谷歌的Gemini以超長的上下文窗口而出名。在大會上,谷歌重點強調了大模型Gemini 1.5 Pro的多模態和長文本能力,為其推出一系列更新。谷歌將向全球150多個國家地區的Gemini Advanced訂閱者提供最新模型、擁有100萬個token的Gemini 1.5 Pro,支持超過35種語言,定價為每100萬token 3.5美元。
據皮查伊介紹,Gemini 1.5會提供“迄今為止所有基礎模型中最長的上下文窗口”。Gemini 1.5 Pro將在今年晚些時候將會把窗口進一步擴大至200萬token,拓展同步處理多模態信息的邊界。
從今年夏天開始,Gemini將支持語音實時交互,并在今年晚些時候上線實時視頻交互。未來幾個月內,谷歌也將推出類似于GPTs的自定義AI助手功能,名為Gems,可以與整套“谷歌全家桶”聯動。
另外,對于一些需要快速響應的場景,谷歌推出了Gemini 1.5 Flash模型。Flash將是API中速度最快的Gemini模型,針對大規模、大批量的高配任務進行了優化,也具有100萬token的長上下文窗口。
谷歌也在發布會上帶來了旗下開源大模型Gemma的最新版本Gemma 2。據介紹,Gemma 2采用全新架構,參數上達到27B,擁有突破性的性能和效率。
AI助手Project Astra叫板GPT-4o
在OpenAI推出能夠實現人類級別響應的智能助手GPT-4o后,谷歌的AI智能體項目Project Astra也重磅登場。
在演示視頻中,Astra能夠通過手機攝像頭或智能眼鏡看到的內容來分析響應語音命令。它成功地識別出代碼序列、為電路圖提出改進建議、能夠通過鏡頭“看到”倫敦國王十字區,并提醒用戶智能眼鏡的放置位置。
據介紹,谷歌在Gemini的基礎上開發了Astra的原型,可以通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實現更快地處理信息。通過語音模型,谷歌也強化了智能助手的說話能力,讓其能夠給出更快速的回應。
不過,在演示視頻中,谷歌AI助手的回應速度似乎還是會比GPT-4o稍慢一些,語音所表現出的感情色彩也平淡一些。
皮查伊表示,谷歌計劃從今年開始將Astra的功能添加到其Gemini應用程序及其產品中。不過,他也強調,雖然最終目標是“讓Astra在公司的軟件中實現無縫連接”,但該產品將被謹慎推出,并且“商業化之路將由質量驅動”。
除了在AI助手領域的競爭外,谷歌還通過文生視頻模型Veo來反擊OpenAI的Sora。Veo能夠根據文字、圖片和視頻的提示來生成高質量的1080p視頻,創作“一致且連貫”的鏡頭,用戶可以對光照、鏡頭語言、視頻顏色風格等進行自定義設置。不過,谷歌沒有宣布Veo的具體推出時間。
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)