來源:新智元
大廠用成千上萬張顯卡訓練的SOTA模型已經看膩了?這次我們來看看「小作坊」訓練的模型如何。
慕尼黑大學的研究生做了一個Deep Fake模型,只用了300萬個參數和一個1080Ti,搞定!堪比SOTA!
雖然作者是這么說的,但是從他發布的成果上來看,有些一言難盡。
由于樣本只提供音頻素材,所以聲音還是樣本的聲音,聽起來違和感簡直要溢出屏幕了。好在不會出現像其他一些視頻那樣把整張臉貼上去那么搞笑。
網友用FakeAPP生成的視頻
作者表示,和一些SOTA模型相比,論文的方法除了具有較低的嘴唇同步誤差,同時在圖像質量方面要優于所有方法。
從左到右依次是:原視頻,文章的方法, Neural Voice Puppetry,Wav2Lip和Wav2Lip GAN
全連接網絡就夠了
模型基于3D可變形人臉模型 (3DMM),并具有 3D 面部的位置編碼和從英語語音中提取的音頻特征。
對于給定的語音,模型可以預測中性空間的RGB顏色和3D頂點位移。音頻特征向量過濾的時間穩定性可以提供平滑的唇音同步。
文章表示,模型可以接受任意音頻輸入,并生成逼真的面部圖像。
模型首先提取梅爾頻率倒譜系數(MFCC)特征,音頻的嵌入由Wav2Lip編碼器生成。
然后,變形(deformation)網絡輸出人物面部形狀的網格,且不受3DMM的限制,并在之后利用恒等函數對3D形狀進行優化。
最后,由音頻驅動的圖像由顏色(color)網絡輸出。
為了將輸出圖像嵌入到背景中,需要單獨訓練另一個基于背景和先前輸出的合成網絡。
模型每個部分的輸出,從左至右:變形網絡、顏色網絡、合成網絡
再來一個例子,從左至右依次是:原始的視頻,渲染后的視頻,僅用于獲取音源的視頻。
網友表示:你這個不行啊
對于項目本身,評價基本是負面的。
「那么,這與在奧巴馬的靜音視頻上播放音頻的結果有什么不同呢?」
「奧巴馬的嘴唇似乎并沒有遵循著說話的軌跡」
不僅如此,對于DeepFake這類的研究,網友普遍對其倫理道德方面表示擔憂。
「有時我想到這些技術是如何被濫用的,這讓我對未來感到有點難過」
「它不僅會陷害無辜者,也會為有罪者提供合理的推諉」
「所以你決定既要改進deep-fake,又要使用凱文-史派西(有道德污點)。你基本上是每個人工智能倫理學家最糟糕的噩夢。」
這件事從另一個方面告訴我們,不要把自己的畢業論文發出來,難道來自導師的嘲諷還不夠么??
論文地址:
https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
參考資料:
https://zielon.github.io/face-neural-rendering/
(聲明:本文僅代表作者觀點,不代表新浪網立場。)