Meta開源AI模型厲害了!引入多模態轉換 聽音頻就能畫畫

Meta開源AI模型厲害了!引入多模態轉換 聽音頻就能畫畫
2023年05月11日 23:21 媒體滾動

下載新浪財經APP,了解全球實時匯率

  財聯社

  Meta周二(5月9日)宣布了一個新的開源人工智能(AI)模型ImageBind,該模型可以將六種類型的數據流聯系在一起。

  ImageBind以視覺(圖片和視頻)為核心,結合文本聲音3D深度溫度運動讀數(IMU),最終可以做到在六個模態之間的任意轉換。

  ImageBind為機器提供了一個整體的理解,將照片中的物體與它們的聲音、3D形狀、冷暖程度、以及它們的移動方式聯系起來。

  Meta稱,ImageBind使機器能夠更同步、更全面、更直接地從不同信息形式中學習,進一步向人類靠攏。

  AI的未來

  該研究的核心概念是將多種類型的數據連接到一個嵌入空間(Embedding Space)中,正是這個概念支撐著最近生成式AI的蓬勃發展。

  例如,Meta的AI圖像生成器Make-A-Scene可以在ImageBind模型的支持下,從音頻中創建圖像,例如根據雨林或熙熙攘攘的市場的聲音創建圖像。

  ImageBind還可以提供一種豐富的方式來探索記憶,也就是使用文本、音頻和圖像的組合來搜索相關信息。

  此外,ImageBind為研究人員開發新的整體系統提供了思路,例如結合3D和IMU傳感器來設計或體驗沉浸式虛擬世界。這不就是Meta一直以來追求的“元宇宙”嗎?

  上圖是Meta在一篇博客文章中給出的案例:當輸入一段企鵝的叫聲后,ImageBind能生成企鵝的圖片;當輸入鴿子的照片和一段汽車轟鳴聲后,ImageBind能生成一張“人開車驚動鴿群”的照片;ImageBind還可以根據一段火車的音頻,生成火車的照片、相關的火車3D模型、以及一段形容火車車站的文本。

  該模型目前還只是一個研究項目,沒有直接的消費者或實際應用,不過它這種交叉引用數據的模型指明了生成式AI系統的未來,因為它可以創造身臨其境的多感官體驗。

  Meta在博客文章中指出,其他感官輸入流也可能會被添加到未來的模型中,包括“觸覺、聽覺、嗅覺和大腦功能磁共振成像信號”。

  想象一下,在未來的一臺設備上,你可以讓它模擬一次漫長的海上航行,它不僅會讓你置身于一艘以海浪為背景聲音的船上,還會讓你感受到腳下甲板的搖晃和海上空氣的涼爽。

  開源與限制

  當然,這一切都是推測的,而且像這樣的研究的直接應用可能會受到更多的限制。

  然而,對于行業觀察者來說,這項研究很有趣,因為Meta已將其ImageBind的代碼開源,這一做法在AI領域受到愈發嚴格的審查。

  OpenAI等反對開源的行業人士稱,這種做法對創造者有害,因為競爭對手可以復制他們的作品,而且這種做法可能存在潛在危險,允許惡意行為者利用最先進的人工智能模型。

  不過開源的支持者反擊道,開源本質上是允許第三方開發人員作為無償員工來對模型進行改進,從而進一步產生商業效益。迄今為止,Meta一直堅定地站在開源陣營。

炒股開戶享福利,送投顧服務60天體驗權,一對一指導服務!
海量資訊、精準解讀,盡在新浪財經APP

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

7X24小時

  • 05-11 美芯晟 688458 75
  • 05-11 航天軟件 688562 12.68
  • 05-11 寧新新材 839719 14.68
  • 05-11 三聯鍛造 001282 27.93
  • 05-11 朗坤環境 301305 25.25
  • 產品入口: 新浪財經APP-股票-免費問股
    新浪首頁 語音播報 相關新聞 返回頂部