專題:聚焦谷歌2024年I/O開發(fā)者大會:實時交互、視頻模型登場
財聯(lián)社5月15日訊(編輯 趙昊)北京時間周三(5月15日)凌晨,谷歌舉辦了年度I/O開發(fā)者大會,召開了長達(dá)兩個小時的主題演講。正如外界預(yù)期的那樣,人工智能成為了這次活動的中心。
在演講中,這家科技巨頭發(fā)布了眾多有關(guān)人工智能的產(chǎn)品和服務(wù):
一、Gemini的廣泛升級
谷歌推出了新模型“Gemini 1.5 Flash”,以作為Gemini 1.5 Pro更具成本效益的替代方案,同時仍具有強(qiáng)大的功能。Gemini 1.5 Flash從活動當(dāng)天開始在谷歌的AI工作室和Vertex AI中提供公開預(yù)覽版。
2月份公布的Gemini 1.5 Pro也將迎來升級,在今年晚些時候?qū)?00萬Tokens的窗口進(jìn)一步擴(kuò)大至200萬,這將使其能夠同時處理2小時的視頻、22小時的音頻、超過60,000行代碼或超過140萬個單詞。
谷歌CEO皮查伊強(qiáng)調(diào)了Gemini在跨語言方面的改進(jìn),它將以35種語言向全球所有開發(fā)人員提供。皮查伊表示,Gemini 1.5 Pro可以分析PDF和視頻以提供摘要,這意味著當(dāng)用戶假期歸來后,模型可以將電子郵件和附件一起進(jìn)行總結(jié)。
專為在智能手機(jī)上運(yùn)行而設(shè)計的Gemini Nano也從純文本輸入擴(kuò)展到可以圖片輸入。谷歌表示,“手機(jī)將能通過文字、圖片、視頻、音頻,理解用戶的世界。”并且整個過程都是在本地運(yùn)行,不會引發(fā)隱私泄露。
開源大模型Gemma也將有一系列的更新,定于下月推出的Gemma 2參數(shù)量將能達(dá)到270億。最后,谷歌的第一個視覺語言模型PaliGemma也被添加到Gemma模型系列中。
二、Veo、Imagen 3、音頻概述
針對OpenAI的Sora,谷歌也推出了自己的視頻生成模型“Veo”,可以根據(jù)文字、圖片和視頻的提示,生成各種風(fēng)格的高質(zhì)量1080P視頻。
公司表示,Veo可以更好地理解自然語言,從而生成更能代表用戶視覺的視頻。它還能理解“延時拍攝”等電影術(shù)語,以生成各種風(fēng)格的視頻,并讓用戶更好地控制最終輸出。
去年,谷歌推出了一款名為“SynthID”的工具,可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上,公司宣布正在將這項工具擴(kuò)展到文本和視頻之中。上文提到的視頻生成模型Veo,在該平臺生成的所有視頻都會包含SynthID水印。
谷歌還推出了新一代的圖像生成模型“Imagen 3”,根據(jù)公司的說法該模型可生成迄今為止最高質(zhì)量的圖像,圖像中具有更多細(xì)節(jié)和更少偽影,有助于創(chuàng)建更真實的視覺體驗。
與Veo一樣,Imagen 3也改進(jìn)了其自然語言功能,可以更好地理解用戶提示及其背后的意圖。谷歌稱,Imagen 3是渲染文本的最佳選擇,目前只有選定的創(chuàng)作者才能使用,很快就會在Vertex AI中推出。
通過Gemini 1.5 Pro,音頻概述(Audio Overview)功能可以基于源文件生成個性化和交互式音頻對話。
三、AI賦能谷歌搜索
作為主業(yè),谷歌自然會大力將AI融進(jìn)其主導(dǎo)全球的搜索引擎之中。從本周開始,谷歌搜索引擎將在美國推出“AI概覽”(AI Overviews)的功能,搜索引擎會直接歸納總結(jié)搜索結(jié)果。
同時谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題,并支持“拍視頻”搜索解決方案的新搜索形式。
根據(jù)現(xiàn)場演示,搜索引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優(yōu)惠報價,和距離特定位置的步行時間。這個AI搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問。
許多人可能都曾經(jīng)歷過花費數(shù)小時滾動瀏覽網(wǎng)頁信息流來查找想要搜索的圖片,對此,谷歌推出了AI解決方案。借助Gemini,用戶可以在Google Photos中通過對話提示來查找他們尋找的圖像。
在谷歌提供的案例中,一位用戶希望看到他的女兒作為游泳運(yùn)動員隨著時間推移的進(jìn)步,Google Photos自動篩選給出。谷歌表示,這項名為“Ask Photos”的功能將于今年夏季晚些時候推出。
四、Astra項目
谷歌在大會上宣布了一個名為“Astra”的高級視覺和對話響應(yīng)智能體項目,即開發(fā)能在日常生活中提供幫助的通用AI智能體。媒體分析認(rèn)為,這個項目旨在開發(fā)一種類似《鋼鐵俠》中人工智能系統(tǒng)“賈維斯”。
根據(jù)谷歌的說法,為了做到真正實用,智能體需要能夠像人一樣理解周圍復(fù)雜多變的環(huán)境并做出反應(yīng)——它需要能接收并記憶所見所聞,從而了解上下文信息并采取行動。
谷歌表示,它還需要具備主動性、“會學(xué)習(xí)”并能滿足個性化需求,這樣用戶才能自然地與它交談,不會有滯后或延遲。
DeepMind首席執(zhí)行官Demis Hassabis在臺上表示,“將響應(yīng)時間縮短為對話式的內(nèi)容是一項艱巨的工程挑戰(zhàn)。”
五、AI芯片等硬件
谷歌推出了第六代TPU(張量處理單元)“Trillium”,將在2024年底向云客戶提供。公司表示,與上一代TPU v5e相比,每個芯片的計算性能提高了4.7倍。
除了TPU,谷歌也會推出CPU和GPU來支持工作負(fù)載。
皮查伊也在大會上提到,谷歌云將成為首批提供英偉達(dá)Blackwell GPU的云提供商之一,他在演講中強(qiáng)調(diào)了谷歌“與英偉達(dá)的長期合作伙伴關(guān)系”。
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)