李飛飛空間智能模型引關注 多家大廠跟進布局

李飛飛空間智能模型引關注 多家大廠跟進布局
2024年12月14日 03:16 媒體滾動

  來源:中國經營報

  本報記者 秦梟 北京報道

  近日,被稱為“AI教母”的李飛飛創立的World Labs首次官宣空間智能模型,World Labs團隊展示了他們如何探索3D生成式世界,僅用一張圖,即可生成一個3D世界。李飛飛說道:“無論怎樣理論化這個想法,都很難用語言描述一張照片或一句話生成3D場景的互動體驗?!彼龔娬{,大自然中存在著一種視覺與行動之間的良性互動,而空間智能正是這種互動的核心。

  多位業內人士在接受《中國經營報》記者采訪時表示,從自然語言處理到圖像和視頻生成,再到空間智能,生成式人工智能在短短兩年內正以前所未有的速度認知、理解、模擬并創造出人類所處的物理世界。盡管圖片生成3D技術在AR眼鏡這一場景上已有實踐,但李飛飛發布的“空間智能”模型標志著AI從2D像素平面邁向了完整的3D世界,并且該模型生成的3D世界具有高度的交互性和真實性,用戶可以在其中自由移動相機,探索虛擬環境,體驗更真實的物理效果和視覺效果。

  雖然World Labs發布的空間智能大模型落地場景與應用方面仍存在諸多挑戰,但業界相信其未來的潛力。記者在采訪中了解到,目前除了World Labs外,國內外的多家科技公司也在空間智能領域開始布局。相信未來競爭將愈發激烈,也將進一步拓展AI技術的邊界,同時也會為多個行業帶來變革機遇。

  邁向空間智能的第一站

  World Labs于今年9月13日成立,是一家空間智能AI公司,試圖構建大型世界模型(LWM)來感知、生成3D世界并與之交互。李飛飛擔任公司CEO。

  實際上,早在今年年初便有消息傳出,李飛飛創立了一家從事空間智能相關業務的AI初創企業,其將利用類人視覺數據處理技術,讓 AI 可以實現高級推理。

  根據World Labs的官方網站信息,該公司已經成功募集到超過2.3億美元的資金。此次融資的領投機構包括硅谷著名的風險投資公司Andreessen Horowitz、NEA以及專注于人工智能的風投基金Radical Ventures。參與投資的其他知名公司有Adobe、AMD以及英偉達等,同時,個人投資者中也不乏重量級人物,包括被譽為“AI教父”的杰弗里·辛頓(Geoffrey Hinton)、特斯拉人工智能和自動駕駛部門(Autopilot)原負責人Andrej Karpathy以及谷歌的首席科學家Jeff Dean。

  不過,在星光熠熠下,外界對“空間智能”一直沒有統一的定義。在溫哥華TED大會的演講中,李飛飛提到,當前最先進的算法已經能夠合理推斷圖像和文字在三維環境中的呈現方式,并據此做出行動,這種算法所依托的便是所謂的空間智能。

  在進一步闡述空間智能這一概念時,她使用了一張極具啟發性的圖片作為輔助工具:一只貓正伸出爪子,意圖將玻璃杯推向桌子的邊緣。她隨后詳盡地解析了這一過程,指出人類大腦具備在極短時間內對玻璃杯的幾何構型、它在三維空間中的位置,以及它與桌子、貓和其他物體的相互關系進行綜合評估的能力。在此基礎上,大腦能夠預測接下來可能發生的情境,并采取相應措施來預防潛在的風險。

  經過一年時間的努力,李飛飛終于將更“具象”的空間智能展示出來。在World Labs 發布的模型上,用戶僅需上傳一張圖片,系統即可依據圖片中的環境信息,自動生成一個相應范圍內的3D虛擬世界。用戶可以直接在網頁端,通過鼠標或鍵盤操作,輕松地瀏覽這個3D世界。此外,生成的3D世界具備交互性,用戶能夠像在游戲里一樣,自由地移動相機,探索這個3D世界,包括景深、變焦等操作都可輕松完成。

  中國投資協會上市公司投資專業委員會副會長支培元評價道:“‘空間智能’模型的問世,標志著AI在深度學習、計算機視覺領域取得了里程碑式的進步,尤其在3D圖形合成、環境映射、目標檢測等關鍵任務上展現出了超越常規的強大效能,預期將掀起VR/AR、交互娛樂、建筑可視化等行業的根本變革。無論是電子商務平臺的沉浸式購物體驗、房產市場的遠程實景導覽,抑或影視后期制作的特效創作,還是教育培訓領域的虛擬實訓基地,皆可成為該技術的用武之地。”

  不過,記者在體驗過程中注意到,該模型構建的3D場景探索范圍有限,一旦移動一小段距離,系統便會提示已觸達邊界。而且,該模型還會出現“幻覺”,理解不夠準確。

  World Labs也表示,以上成果還偏早期,他們正在努力提高生成世界的大小和擬真度,也正在試驗用戶與它們交互的新方式。

  世界院士專家聯合會執行秘書長、中國民協新質生產委員會秘書長吳高斌指出,盡管李飛飛發布的模型具有巨大潛力,但要實現理想的落地場景仍面臨一定困難。首先,在技術層面,模型在生成3D世界的精度和速度上還需進一步提高。其次,在應用層面,如何將這一模型與現有產業相結合,實現商業化落地,仍需克服諸多挑戰。

  國內已有涉及

  實際上,在空間智能領域,李飛飛并不是第一個“吃螃蟹的人”。英偉達、Meta等多家公司也有所布局,只不過,它們稱之為3D生成。美國當地時間12月4日,谷歌DeepMind發布了大型基礎世界模型Genie 2,可通過單張圖片或文字描述生成3D場景。

  不只是海外,國內的AI廠商也在著手布局空間智能。幾乎與World Labs同一時間,國內智源研究院推出了首個利用大規模無標注的互聯網視頻學習的3D生成模型See3D——See Video, Get 3D。

  不同于傳統依賴相機參數(pose-condition)的3D生成模型,See3D采用全新的視覺條件(visual-condition)技術,僅依賴視頻中的視覺線索,生成相機方向可控且幾何一致的多視角圖像。

  在今年11月初,有傳聞指出阿里巴巴正在測試一款名為“Animode”的人工智能視頻創作工具。根據官方的描述,該工具是一款專業的3D軟件,旨在創造栩栩如生的二次元角色和具有電影大片般效果的視覺內容。緊接著在11月5日,騰訊旗下的混元實驗室也宣布了其最新研發的MoE模型“混元Large”以及3D生成大模型“Hunyuan3D-1.0”的開源。

  然而,在中關村物聯網產業聯盟副秘書長袁帥看來,World Labs的空間智能模型之所以受到外界的廣泛關注和“吹捧”,原因在于其獨特的技術優勢和廣泛的應用前景。該模型不僅支持實時渲染和用戶自由控制視角,還具有高度的交互性和場景持久性,為用戶提供了更加豐富和真實的體驗。此外,該模型還能夠適應不同的場景和藝術風格,為創作者提供了更多的創意空間和個性化體驗。

  支培元表示,相較同類方案,該模型兼具計算效率與圖像質量優勢,能在保持細節豐富度的基礎上,極大程度地壓縮處理時間,解決當前三維內容生成的技術難題。兼容主流硬件平臺,從移動終端到高性能服務器,確保技術無縫對接,有利于快速市場化部署,支撐多元場景應用。盡管面臨技術挑戰和商業化落地的難題,但獨特的技術優勢和廣泛的應用前景使其成為業界關注的焦點。隨著國內外多家大廠的布局,空間智能領域正迎來一個全新的發展階段。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李桐

智能 3D 李飛飛 World AI

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 12-20 天和磁材 603072 --
  • 12-19 國貨航 001391 --
  • 12-17 方正閥門 920082 3.51
  • 12-13 中力股份 603194 20.32
  • 12-10 林泰新材 920106 19.82
  • 新浪首頁 語音播報 相關新聞 返回頂部