谷歌大幅更新生成式AI,推出視頻模型VEO 2和最新版Imagen3

谷歌大幅更新生成式AI,推出視頻模型VEO 2和最新版Imagen3
2024年12月17日 04:07 市場資訊

  作者:趙雨荷

  來源:硬AI

  谷歌的旗艦AI研究實驗室Google DeepMind周一大幅升級其人工智能驅動的內容生成工具,推出了Veo 2視頻生成模型和增強版Imagen 3圖像模型,挑戰OpenAI在AI圖像和視頻生成的領先地位。谷歌表示,這些更新有望徹底改變創意工作流程,為視頻和圖像創作者提供更高的真實感和定制化體驗。

  谷歌介紹,Veo 2是谷歌的視頻生成工具,能夠生成多樣化主題和風格的高質量視頻。谷歌在博客中表示,這款模型在真實感方面表現卓越,能夠捕捉到人類表情和電影效果等細節。其增強的物理和電影學理解能力使用戶能夠生成令人驚嘆的內容,包括跟蹤鏡頭和廣角構圖等。

  例如,Veo 2熟悉電影拍攝語言,用戶可以要求某種類型的風格,指定鏡頭,建議電影效果,Veo 2都會以高達4K分辨率并延長到數分鐘的視頻長度來呈現。比如,要求“低角度跟蹤鏡頭穿越場景中央”或“特寫科學家通過顯微鏡觀察”的鏡頭,Veo 2都能實現。提示“18mm鏡頭”,Veo 2知道生成廣角鏡頭;要求“淺景深”,它會模糊背景,突出主體。

  值得注意的是,這一分辨率是OpenAI Sora模型的4倍,視頻時長更是其6倍以上。

  不過,目前這些優勢仍是理論上的。在谷歌的實驗性視頻創作工具VideoFX中,Veo 2生成的視頻被限制為720p分辨率、8秒的長度。(相比之下,Sora的最大輸出為1080p、20秒的短片。)

  谷歌表示,雖然視頻生成模型往往會“幻象化”出不需要的細節,例如多余的手指或意外的物體,但Veo 2在這一方面的表現更為真實,生成錯誤的頻率較低。

  此外,Veo 2生成的視頻包括不可見的SynthID水印,用于標記它們為AI生成的內容,從而減少誤用或錯誤歸屬的風險。

  DeepMind產品副總裁Eli Collins對媒體表示,隨著模型逐漸具備規模化使用的準備,谷歌將通過其Vertex AI開發者平臺提供Veo 2。

  開發者和創作者目前可以通過谷歌實驗室(Google Labs)訪問該工具,預計到2025年,它將廣泛集成至諸如YouTube Shorts等平臺。

  同時,Imagen 3模型在圖像構圖和細節準確性方面得到了增強,支持從寫實到抽象的各種風格,能夠生成更豐富的紋理,并更加忠實地回應用戶提示。

  目前,Imagen 3已經通過谷歌實驗室的ImageFX工具在100多個國家上線,全球用戶可以試驗其尖端功能。

  此外,谷歌還推出了Whisk,這是一款結合了Imagen 3和Gemini視覺分析能力的創意工具。用戶可以輸入圖像,生成詳細的文字描述、重新混合風格,或設計個性化作品,如數字玩偶或搪瓷徽章。

  谷歌介紹,Whisk結合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會自動為用戶的圖像生成詳細的文字描述,并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場景和風格。

  本文來自微信公眾號“硬AI”,關注更多AI前沿資訊請移步這里

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李桐

谷歌 AI 圖像 鏡頭

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 12-20 天和磁材 603072 --
  • 12-19 國貨航 001391 2.3
  • 12-17 方正閥門 920082 3.51
  • 12-13 中力股份 603194 20.32
  • 12-10 林泰新材 920106 19.82
  • 新浪首頁 語音播報 相關新聞 返回頂部