安裝新浪財經客戶端第一時間接收最全面的市場資訊→【下載地址】
專題:聚焦谷歌2024年I/O開發者大會:實時交互、視頻模型登場
來源:硬AI
雖然被OpenAI搶在前面發布了重磅新品演示,但谷歌后發制人,做到了OpenAI還沒能做到的事,率先發布人工智能(AI)搜索引擎,捍衛搜索領域的王者地位,同時對壘OpenAI新發布的旗艦模型GPT-4o,以升級版的最強大AI模型Gemini迎戰。
美東時間5月24日周二舉行的年度Google I/O開發者大會上,谷歌CEO Sundar Pichai表示,谷歌所有的工作都圍繞生成式AI模型Gemini來做,“我們希望每個人都能從Gemini 所做的事中受益。” AI搜索正是Pichai提到的Gemini融入谷歌多種服務之一。
Pichai宣布,本周,AI技術生成摘要的功能將上線美國的谷歌搜索,它名為AI Overviews,并很快會在更多國家地區推出。
通過多步推理,Gemini可以代替用戶研究,找到更好的搜索結果。比如谷歌搜索中的Gemini可以通過匯總一天中的所有膳食以及所有菜肴的食譜,為用戶規劃膳食。如果用戶覺得做飯太麻煩,谷歌搜索還可以在Gemini的幫助下,為用戶找到可以購買用戶所需餐食的地方。
在Gemini的幫助下,用戶的搜索結果頁面也會發生變化,比如尋找有現場音樂的餐廳,它甚至可以根據不同的季節做推薦,比如顯示有屋頂的餐廳。
Pichai現場演示,借助Gemini 的強大功能,在谷歌相冊Google Photos可以進行更多的相關搜索,比如通過名為Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車牌照號,Gemini將根據上下文響應在相冊中搜索,并選出用戶想要的照片,得到照片中拍到的車牌照號。
谷歌云計算生產力和協作平臺Google Workspace的許多服務將結合Gemini,例如用Gemini 在Gmail中搜索特定發件人發出的電郵,在線上網絡和視頻會議Google Meeting中找到亮點。
Gemini可用于搜索用戶的手機,幫用戶查找收據、安排取貨窗口。如果用戶計劃旅行,Gemini 可以用來搜索有趣的活動。Pichai表示,谷歌正在“讓AI對每個人都有幫助”。
谷歌稱,用戶將可以直接在搜索中通過視頻提問。谷歌高管演示了,如何借助視頻搜索修復損壞的電唱機。具體做法是,先錄制視頻展示損壞的問題,然后詢問,為什么電唱機無法正常工作。谷歌搜索就能夠進行逐幀搜索,回答高管的問題。
Gemini 1.5 Pro上下文窗口200萬token 全球最長
谷歌稱,推出號稱有史以來最強大AI模型Gemini Advanced三個月內,已有超過100用戶注冊。
從本周二起,谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro,稱它擁有的上下文窗口在全球消費類聊天機器人中最長,窗口起始就有100萬個token。Gemini 1.5 Pro將向150 多個國家地區的Gemini Advanced訂閱者提供,支持超過35 種語言。
Pichai稱,Gemini 1.5 Pro“提供了迄今為止所有基礎模型中最長的上下文窗口?!?他介紹,Gemini 1.5 Pro將擁有200 萬個token的上下文窗口,是當前模型100萬個token窗口的兩倍。
Gemini新語音對話功能Live 定制版Gemini
谷歌稱,今年夏季將擴展 Gemini 的多模態功能,包括增加用語音進行深入雙向對話的能力,該功能被稱為 Live。通過 Gemini Live,用戶可以與 Gemini 交談,并可以從各種自然的聲音中選擇它回應的聲音。 用戶甚至可以按照自己的節奏說話,或者在回答過程中打斷并澄清問題,就像在任何人類對話中一樣。
有網友評論稱,想知道相比OpenAI周一發布的最新旗艦模型GPT-4o,Gemini的對話功能會有多好。
谷歌稱,今年夏季,將在Gemini Advanced 中添加新的旅行規劃功能。借助考慮時間和空間方面物流的先進推理,Gemini將能夠創建個性化的行程,節省用戶的工作時間。
未來幾周,谷歌將在Gemini Advanced中添加新的數據分析功能。用戶只需上傳電子表格,Gemini 就可以分析數據、制作圖表,并更快地發掘見解。
谷歌將推出被稱為Gem的Gemini的定制版本。Gemini Advanced 訂閱者將很快可以獲得更個性化的體驗,根據自己的需要創建Gemini,只需描述用戶希望 Gem 做什么以及希望它如何響應,就可以讓它化身健身伙伴、主廚幫手、編代碼的拍檔或者創意寫作指南。
例如,用戶可以要求Gemini:做我的跑步教練,給我一個每天跑步的計劃,而且保持積極、樂觀、激勵我。Gemini將接收這些說明,用戶只需單擊一下,即可強化這方面的特質,創建一個滿足特定需求的Gem。
Project Astra回答手機所拍物問題 安卓端側Gemini增加多模態功能
谷歌官宣推出新的多模態AI項目Project Astra,它可以為用戶解釋智能手機拍到的東西。在谷歌展示的視頻中,只要將手機攝像頭對準某個物體,Gemini就可以識別它,比如一個紅蘋果,還可以回答諸如鏡頭中什么東西是可以發聲的這種問題。
谷歌稱,將很快為模型Gemini Nano添加多模式功能。這意味著,用戶的手機可以通過文本、圖像、聲音和口語,按照用戶理解的方式理解世界。
谷歌稱,端側安卓系統手機版的Gemini Nano將更有幫助,更有上下文的意識。今年,安卓手機的用戶將可以將生成的圖像拖放到Google Messages 和 Gmail 中,并可以直接在手機上提出有關YouTube視頻和 PDF文件的問題,得到解答。
谷歌稱,今年晚些時候,Gemini Nano的輔助功能TalkBack將增強。圖像描述將更加清晰和豐富,幫助弱視用戶和盲人用戶通過語音反饋,更好地指示他們的手機。
責任編輯:歐陽名軍
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)