五大重磅更新速覽!谷歌I/O開發(fā)者大會究竟公布了什么?

五大重磅更新速覽!谷歌I/O開發(fā)者大會究竟公布了什么?
2024年05月15日 07:52 媒體滾動

專題:聚焦谷歌2024年I/O開發(fā)者大會:實時交互、視頻模型登場

財聯(lián)社5月15日訊(編輯 趙昊)北京時間周三(5月15日)凌晨,谷歌舉辦了年度I/O開發(fā)者大會,召開了長達(dá)兩個小時的主題演講。正如外界預(yù)期的那樣,人工智能成為了這次活動的中心。

在演講中,這家科技巨頭發(fā)布了眾多有關(guān)人工智能的產(chǎn)品和服務(wù):

一、Gemini的廣泛升級

谷歌推出了新模型“Gemini 1.5 Flash”,以作為Gemini 1.5 Pro更具成本效益的替代方案,同時仍具有強(qiáng)大的功能。Gemini 1.5 Flash從活動當(dāng)天開始在谷歌的AI工作室和Vertex AI中提供公開預(yù)覽版。

2月份公布的Gemini 1.5 Pro也將迎來升級,在今年晚些時候?qū)?00萬Tokens的窗口進(jìn)一步擴(kuò)大至200萬,這將使其能夠同時處理2小時的視頻、22小時的音頻、超過60,000行代碼或超過140萬個單詞。

谷歌CEO皮查伊強(qiáng)調(diào)了Gemini在跨語言方面的改進(jìn),它將以35種語言向全球所有開發(fā)人員提供。皮查伊表示,Gemini 1.5 Pro可以分析PDF和視頻以提供摘要,這意味著當(dāng)用戶假期歸來后,模型可以將電子郵件和附件一起進(jìn)行總結(jié)。

專為在智能手機(jī)上運(yùn)行而設(shè)計的Gemini Nano也從純文本輸入擴(kuò)展到可以圖片輸入。谷歌表示,“手機(jī)將能通過文字、圖片、視頻、音頻,理解用戶的世界。”并且整個過程都是在本地運(yùn)行,不會引發(fā)隱私泄露。

開源大模型Gemma也將有一系列的更新,定于下月推出的Gemma 2參數(shù)量將能達(dá)到270億。最后,谷歌的第一個視覺語言模型PaliGemma也被添加到Gemma模型系列中。

二、Veo、Imagen 3、音頻概述

針對OpenAI的Sora,谷歌也推出了自己的視頻生成模型“Veo”,可以根據(jù)文字、圖片和視頻的提示,生成各種風(fēng)格的高質(zhì)量1080P視頻。

公司表示,Veo可以更好地理解自然語言,從而生成更能代表用戶視覺的視頻。它還能理解“延時拍攝”等電影術(shù)語,以生成各種風(fēng)格的視頻,并讓用戶更好地控制最終輸出。

去年,谷歌推出了一款名為“SynthID”的工具,可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上,公司宣布正在將這項工具擴(kuò)展到文本和視頻之中。上文提到的視頻生成模型Veo,在該平臺生成的所有視頻都會包含SynthID水印。

谷歌還推出了新一代的圖像生成模型“Imagen 3”,根據(jù)公司的說法該模型可生成迄今為止最高質(zhì)量的圖像,圖像中具有更多細(xì)節(jié)和更少偽影,有助于創(chuàng)建更真實的視覺體驗。

與Veo一樣,Imagen 3也改進(jìn)了其自然語言功能,可以更好地理解用戶提示及其背后的意圖。谷歌稱,Imagen 3是渲染文本的最佳選擇,目前只有選定的創(chuàng)作者才能使用,很快就會在Vertex AI中推出。

通過Gemini 1.5 Pro,音頻概述(Audio Overview)功能可以基于源文件生成個性化和交互式音頻對話。

三、AI賦能谷歌搜索

作為主業(yè),谷歌自然會大力將AI融進(jìn)其主導(dǎo)全球的搜索引擎之中。從本周開始,谷歌搜索引擎將在美國推出“AI概覽”(AI Overviews)的功能,搜索引擎會直接歸納總結(jié)搜索結(jié)果。

同時谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題,并支持“拍視頻”搜索解決方案的新搜索形式。

根據(jù)現(xiàn)場演示,搜索引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優(yōu)惠報價,和距離特定位置的步行時間。這個AI搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問。

許多人可能都曾經(jīng)歷過花費數(shù)小時滾動瀏覽網(wǎng)頁信息流來查找想要搜索的圖片,對此,谷歌推出了AI解決方案。借助Gemini,用戶可以在Google Photos中通過對話提示來查找他們尋找的圖像。

在谷歌提供的案例中,一位用戶希望看到他的女兒作為游泳運(yùn)動員隨著時間推移的進(jìn)步,Google Photos自動篩選給出。谷歌表示,這項名為“Ask Photos”的功能將于今年夏季晚些時候推出。

四、Astra項目

谷歌在大會上宣布了一個名為“Astra”的高級視覺和對話響應(yīng)智能體項目,即開發(fā)能在日常生活中提供幫助的通用AI智能體。媒體分析認(rèn)為,這個項目旨在開發(fā)一種類似《鋼鐵俠》中人工智能系統(tǒng)“賈維斯”。

根據(jù)谷歌的說法,為了做到真正實用,智能體需要能夠像人一樣理解周圍復(fù)雜多變的環(huán)境并做出反應(yīng)——它需要能接收并記憶所見所聞,從而了解上下文信息并采取行動。

谷歌表示,它還需要具備主動性、“會學(xué)習(xí)”并能滿足個性化需求,這樣用戶才能自然地與它交談,不會有滯后或延遲。

DeepMind首席執(zhí)行官Demis Hassabis在臺上表示,“將響應(yīng)時間縮短為對話式的內(nèi)容是一項艱巨的工程挑戰(zhàn)。”

五、AI芯片等硬件

谷歌推出了第六代TPU(張量處理單元)“Trillium”,將在2024年底向云客戶提供。公司表示,與上一代TPU v5e相比,每個芯片的計算性能提高了4.7倍。

除了TPU,谷歌也會推出CPU和GPU來支持工作負(fù)載。

皮查伊也在大會上提到,谷歌云將成為首批提供英偉達(dá)Blackwell GPU的云提供商之一,他在演講中強(qiáng)調(diào)了谷歌“與英偉達(dá)的長期合作伙伴關(guān)系”。

股市回暖,抄底炒股先開戶!智能定投、條件單、個股雷達(dá)……送給你>>
海量資訊、精準(zhǔn)解讀,盡在新浪財經(jīng)APP
谷歌 AI 圖像

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經(jīng)公眾號
新浪財經(jīng)公眾號

24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 04-29 瑞迪智驅(qū) 301596 25.92
  • 04-25 歐萊新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 燦芯股份 688691 19.86
  • 03-27 無錫鼎邦 872931 6.2
  • 新浪首頁 語音播報 相關(guān)新聞 返回頂部