首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設為書簽 Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點擊下載 | 新浪科技 | 新浪首頁 | 新浪導航

1080Ti就搞定最新SOTA模型?一個普通研究生勇敢發畢業論文引起熱議

2021-06-07 13:00:43    創事記 微博 作者:   
視頻加載中,請稍候...

來源:新智元

大廠用成千上萬張顯卡訓練的SOTA模型已經看膩了?這次我們來看看「小作坊」訓練的模型如何。

慕尼黑大學的研究生做了一個Deep Fake模型,只用了300萬個參數和一個1080Ti,搞定!堪比SOTA!

雖然作者是這么說的,但是從他發布的成果上來看,有些一言難盡。

由于樣本只提供音頻素材,所以聲音還是樣本的聲音,聽起來違和感簡直要溢出屏幕了。好在不會出現像其他一些視頻那樣把整張臉貼上去那么搞笑。

網友用FakeAPP生成的視頻

作者表示,和一些SOTA模型比,論文的方法除了具有較低的嘴唇同步誤差,同時在圖像質量方面要優于所有方法。

從左到右依次是:原視頻,文章的方法, Neural Voice Puppetry,Wav2Lip和Wav2Lip GAN

全連接網絡就夠了

模型基于3D可變形人臉模型 (3DMM),并具有 3D 面部的位置編碼和從英語語音中提取的音頻特征。

對于給定的語音,模型可以預測中性空間的RGB顏色和3D頂點位移。音頻特征向量過濾的時間穩定性可以提供平滑的唇音同步。

文章表示,模型可以接受任意音頻輸入,并生成逼真的面部圖像。

模型首先提取梅爾頻率倒譜系數(MFCC)特征,音頻的嵌入由Wav2Lip編碼器生成。

然后,變形(deformation)網絡輸出人物面部形狀的網格,且不受3DMM的限制,并在之后利用恒等函數對3D形狀進行優化。

最后,由音頻驅動的圖像由顏色(color)網絡輸出。

為了將輸出圖像嵌入到背景中,需要單獨訓練另一個基于背景和先前輸出的合成網絡。

模型每個部分的輸出,從左至右:變形網絡、顏色網絡、合成網絡

再來一個例子,從左至右依次是:原始的視頻,渲染后的視頻,僅用于獲取音源的視頻。

網友表示:你這個不行啊

對于項目本身,評價基本是負面的。

「那么,這與在奧巴馬的靜音視頻上播放音頻的結果有什么不同呢?」

「奧巴馬的嘴唇似乎并沒有遵循著說話的軌跡」

不僅如此,對于DeepFake這類的研究,網友普遍對其倫理道德方面表示擔憂。

「有時我想到這些技術是如何被濫用的,這讓我對未來感到有點難過」

「它不僅會陷害無辜者,也會為有罪者提供合理的推諉」

所以你決定既要改進deep-fake,又要使用凱文-史派西(有道德污點)。你基本上是每個人工智能倫理學家最糟糕的噩夢。

這件事從另一個方面告訴我們,不要把自己的畢業論文發出來,難道來自導師的嘲諷還不夠么??

論文地址:

https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0

參考資料:

https://zielon.github.io/face-neural-rendering/

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

分享到:
保存   |   打印   |   關閉