Sora刷屏視頻出現(xiàn)多處失誤 模擬真實(shí)世界仍需闖關(guān)

Sora刷屏視頻出現(xiàn)多處失誤 模擬真實(shí)世界仍需闖關(guān)
2024年02月18日 22:56 第一財(cái)經(jīng)

安裝新浪財(cái)經(jīng)客戶端第一時(shí)間接收最全面的市場(chǎng)資訊→【下載地址

  Sora視頻的質(zhì)量令人驚嘆,但目前,它們除了作為展示AI潛力的范例作用外,實(shí)用落地價(jià)值仍待觀察。

  2月18日,由OpenAI 發(fā)布的文生視頻AI工具Sora引發(fā)的討論仍在繼續(xù),范圍涉及科技圈、資本圈、影視圈等,同時(shí)對(duì)Sora尚存在的問(wèn)題研究也逐漸深入。

  例如針對(duì)OpenAI定位“世界模擬器”的觀點(diǎn),圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆(YannLeCun)表示,根據(jù)提示詞生成的大部分逼真視頻并不表明這樣的AI系統(tǒng)理解物理世界,生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。

  翻閱OpenAI披露的數(shù)十份視頻,楊立昆的觀點(diǎn)具體表現(xiàn)為老奶奶吹蠟燭火苗卻不動(dòng)、東京街頭步伐錯(cuò)誤的女郎、玻璃杯碎后錯(cuò)誤的液體流向、在跑步機(jī)上反向跑步的男子等。

  雖然OpenAI的明星效應(yīng)為其帶來(lái)大量關(guān)注,同日谷歌發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro也變?yōu)榕浣牵徽撌敲绹?guó)硅谷AI項(xiàng)目還是中國(guó)大模型創(chuàng)業(yè)公司,外界關(guān)注的核心均為實(shí)際應(yīng)用效果。

  視頻驚艷bug存在

  目前,Sora所生成的視頻內(nèi)容得到影視行業(yè)人士的普遍認(rèn)可。Mystery Novel視覺(jué)預(yù)演工作室創(chuàng)始人、導(dǎo)演牛萌琛對(duì)第一財(cái)經(jīng)記者表示,Sora視頻中的畫質(zhì),畫面內(nèi)容中的細(xì)節(jié)、光影、色彩都較精細(xì),對(duì)導(dǎo)演來(lái)說(shuō),為其在拍攝前期做一個(gè)簡(jiǎn)單的鏡頭樣板是夠用的。對(duì)廣告片拍攝來(lái)說(shuō),也可以用這種樣板來(lái)與客戶更好地進(jìn)行概念上的溝通和確認(rèn)。但如果涉及鏡頭運(yùn)動(dòng)角度,與更精細(xì)內(nèi)容調(diào)控——如色彩、光影、道具、人物動(dòng)作等,目前AI還不能達(dá)到令客戶滿意的程度。

  一位紀(jì)錄片從業(yè)者對(duì)記者表示,目前Sora還不能直接用于影視作品,因?yàn)榫?xì)度還不夠。但已經(jīng)足夠震撼,完全可以用于前期開(kāi)發(fā),尤其是概念設(shè)計(jì)。一位宣傳片從業(yè)者表示,工作室目前還沒(méi)試過(guò)用AI生成來(lái)做素材,Sora 只發(fā)布了部分作品,且未開(kāi)放公測(cè),能不能用來(lái)代替剪輯不確定。無(wú)論如何,這些工具最后都是為人服務(wù)的,人的個(gè)人感情復(fù)雜性的表達(dá)不可替代。

  攝影專業(yè)人士孟凡對(duì)記者表示,Sora視頻幀率較高,說(shuō)明計(jì)算能力比較強(qiáng),且影片的寬容度更高,如調(diào)色、細(xì)節(jié)表現(xiàn)、高速鏡頭展現(xiàn)等。在直觀感受上,Sora 模型產(chǎn)出的視頻運(yùn)鏡自然,物體運(yùn)動(dòng)符合規(guī)律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會(huì)差一點(diǎn)。

  具體表現(xiàn)在Sora視頻內(nèi)容中,如一分鐘的東京街頭女郎漫步,女郎走路過(guò)程中存在腿部變形、腿部交叉換位時(shí)錯(cuò)亂、右腿連續(xù)兩次在前方邁步等錯(cuò)誤;一段提示詞為“一個(gè)人跑步的場(chǎng)景”中,主角在跑步機(jī)上反向奔跑;提示詞為“考古學(xué)家在沙漠發(fā)現(xiàn)塑料椅子”的視頻中,椅子呈現(xiàn)懸浮狀態(tài)。

  針對(duì)目前Sora存在的不成熟之處,OpenAI表示,Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,可能無(wú)法理解因果關(guān)系,可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時(shí)間推移發(fā)生的事件,如遵循特定的相機(jī)軌跡等。

  OpenAI方面在《作為世界模擬器的視頻生成模型》技術(shù)報(bào)告中表示,Sora作為一個(gè)模擬器,目前表現(xiàn)出許多限制,它并沒(méi)有準(zhǔn)確地模擬許多基本互動(dòng)的物理效應(yīng),比如玻璃破碎。吃食物之類的互動(dòng)不總是產(chǎn)生正確的物體狀態(tài)變化。還有在長(zhǎng)時(shí)間樣本中發(fā)展的不連貫性或物體的自發(fā)出現(xiàn)。

  對(duì)于這些問(wèn)題,多位人工智能領(lǐng)域人士對(duì)記者表示,皆因概率模式的邏輯硬傷所致。中科深智創(chuàng)始人兼CEO成維忠表示,Sora因其并非嚴(yán)格的推理模型,目前還存在因果關(guān)系推理問(wèn)題,但這個(gè)問(wèn)題不是Sora自身的問(wèn)題,而是目前所有類似模型均存在的問(wèn)題,類似于大模型普遍存在的幻覺(jué)問(wèn)題。未來(lái)會(huì)隨著訓(xùn)練的加強(qiáng)而得到改善。

  宜遠(yuǎn)智能CEO吳博對(duì)記者表示,通過(guò)加大訓(xùn)練量、增加訓(xùn)練數(shù)據(jù)與物理邏輯,該問(wèn)題會(huì)逐漸得到改善,但無(wú)法根治。

  南洋理工大學(xué)副教授張含望此前在GAIR全球人工智能與機(jī)器人大會(huì)上表示,想要真正突破最底層邏輯上的問(wèn)題,因果關(guān)系(Causality)是一條必經(jīng)之路。如果不把因果關(guān)系加上去,大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián),幸運(yùn)的話,模型在回答問(wèn)題時(shí)能夠給出正確答案,否則就會(huì)“胡說(shuō)八道”。這是因?yàn)樗澈蟮年P(guān)聯(lián)是錯(cuò)誤的——把共生關(guān)系當(dāng)成了因果關(guān)系。

  實(shí)際使用價(jià)值待解

  Sora之所以能引發(fā)廣泛關(guān)注,除了畫面超過(guò)同行的質(zhì)量原因外,更在于外界對(duì)其即將帶來(lái)的行業(yè)迭代充滿好奇。

  就影視行業(yè)而言,得知Sora視頻發(fā)布后,時(shí)光矩陣聯(lián)合創(chuàng)始人郁剛稱自己的心態(tài)冰火兩重天,一方面對(duì)于影視特效公司而言,該消息算不上一個(gè)好消息,自己第一個(gè)感覺(jué)是“特效公司要死了嗎?”很想將過(guò)去學(xué)的特效工具“埋了”。

  郁剛稱自己過(guò)去能想象到AI視頻會(huì)發(fā)展到這個(gè)精度,但沒(méi)有想過(guò)會(huì)這么快,其原本的預(yù)測(cè)時(shí)間是三到五年,結(jié)果在一年時(shí)間內(nèi)就達(dá)到——從兔年春節(jié)到龍年春節(jié),OpenAI實(shí)現(xiàn)了從文生文到文生視頻的迭代。但從另一個(gè)角度來(lái)說(shuō),郁剛稱自己很欣喜,從導(dǎo)演角色來(lái)說(shuō),過(guò)去最痛苦的就是拿到劇本之后找錢、找投資方,開(kāi)了四年公司,賬上虧損欠賬三百萬(wàn)人民幣,但看了Sora之后,拍視頻、做成特效并放到熒幕上這步最貴的動(dòng)態(tài)預(yù)演環(huán)節(jié),完全可以通過(guò)AI實(shí)現(xiàn)成本節(jié)省。

  郁剛預(yù)計(jì),未來(lái)AI視頻生態(tài)將發(fā)生巨大變化,影視行業(yè)或?qū)⒆優(yōu)榉?wù)業(yè),視頻生產(chǎn)的概念也將發(fā)生變化。

  專業(yè)動(dòng)畫師Owen Fern不認(rèn)可當(dāng)下“Sora顛覆行業(yè)”的極端觀點(diǎn),他稱,作為一名動(dòng)畫師,目前并不對(duì)Sora視頻感到害怕,因?yàn)閯?dòng)畫制作本質(zhì)上是需要反復(fù)修正的過(guò)程,特別是在為客戶服務(wù)時(shí)更是如此。目前 AI 還無(wú)法提供給客戶一個(gè)精雕細(xì)琢的作品,而只是一些粗制濫造的東西。這些細(xì)節(jié)看似挑剔,但它們正是客戶對(duì)知識(shí)產(chǎn)權(quán)(IP)或產(chǎn)品所持的態(tài)度。

  Owen Fern強(qiáng)調(diào)稱,Sora視頻的質(zhì)量的確是令人驚嘆的高,只是就目前而言,它們除了作為展示AI潛力的范例作用外,實(shí)用價(jià)值仍待觀察。

  新加坡Vibranium Consulting副總裁陳沛近期實(shí)際使用和觀察了RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視頻服務(wù),通過(guò)對(duì)比發(fā)現(xiàn),目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果,還會(huì)在物體行進(jìn)方向、人物四肢等方面出現(xiàn)明顯錯(cuò)誤,無(wú)法滿足實(shí)際應(yīng)用的需求。

  Perplexity AI 創(chuàng)始人之一的Aravind Srinivas表示,Sora雖然令人驚嘆,但其還沒(méi)有做好準(zhǔn)確模擬物理的準(zhǔn)備——正如Sora研究員在報(bào)告中提及的那樣。并且,行業(yè)并不能很快地在家庭清潔機(jī)器人上運(yùn)行這些巨大的“世界模擬器”的模擬推理。

  浙商證券認(rèn)為,短期內(nèi),Sora及同類產(chǎn)品可大幅提升圖像和短視頻的制作效率,改變創(chuàng)意生產(chǎn)及營(yíng)銷工作流,提升短視頻產(chǎn)品生產(chǎn)力。對(duì)于業(yè)態(tài)更加復(fù)雜的長(zhǎng)視頻和游戲,受限于模型還無(wú)法準(zhǔn)確理解因果關(guān)系及其他技術(shù)難點(diǎn),現(xiàn)階段或以提供美術(shù)靈感支持為主。

  中長(zhǎng)期來(lái)看,浙商證券表示,Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進(jìn)程中,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),UGC(用戶生成內(nèi)容)將借助AI 工具逐步替代PGC。此間,AI生成視頻工具的商業(yè)化將提速。

股市回暖,抄底炒股先開(kāi)戶!智能定投、條件單、個(gè)股雷達(dá)……送給你>>
海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

責(zé)任編輯:王許寧

AI

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財(cái)經(jīng)公眾號(hào)
新浪財(cái)經(jīng)公眾號(hào)

24小時(shí)滾動(dòng)播報(bào)最新的財(cái)經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時(shí)

  • 02-21 龍旗科技 603341 --
  • 02-08 肯特股份 301591 19.43
  • 01-30 諾瓦星云 301589 126.89
  • 01-30 上海合晶 688584 22.66
  • 01-29 成都華微 688709 15.69
  • 新浪首頁(yè) 語(yǔ)音播報(bào) 相關(guān)新聞 返回頂部