來源:新智元
對于人工智能來說,開發一個能可靠地理解世界、并使用自然語言作出反應的對話系統是一個很大的挑戰。
如果要達到這一目標,那么我們需要一個能夠從圖像、文本、音頻和視頻中提取突出信息,并以人類能夠理解的方式回答問題的模型。
最近,Facebook、哥倫比亞大學、佐治亞理工學院和達特茅斯大學的研究人員開發了Vx2Text——一個從視頻、語音或者音頻中生成文本的框架。他們聲稱,相比之前的最先進的方法,Vx2Text可以更好地創建說明文字并回答問題。
論文地址:
https://arxiv.org/pdf/2101.12059.pdf
與大多數人工智能系統不同,人類可以很自然地輕易理解文本、視頻、音頻和圖像在上下文語境中的含義:
例如,一些給定的文本和圖像,在分開討論的時候似乎無害,比如“看看有多少人愛你”和一張貧瘠沙漠的圖片,然而,人們會立即意識到,這些元素在結合在一起的時候,其實是具有潛在傷害性的。
多模態學習可以包含一些潛在互補的信息或者趨勢,不過,只有在學習中完全包含相關信息的時候,這些含義才能顯現。
對于Vx2Text,,“模態獨立“的分類器將來自視頻、文本或音頻的語義信號,轉換為公共語義語言空間,這使得語言模型能夠直接解釋多模態數據,從而為通過谷歌的T5等強大的語言模型進行多模態融合——即結合信號來支持分類——提供了可能。
Vx2Text中的生成式文本解碼器,將編碼器計算的多模態特征轉換為文本,使該框架適合于生成自然語言語義概括,如下圖:
研究人員在論文中寫道:“與之前的方法相比,這種設計不僅簡單得多,而且具有更好的性能?!?/font>
“更有用的是,它并不需要設計專門的算法,或者借鑒其他替代方法來實現多模態信息的組合”
在實驗中,研究人員展示了Vx2Text為帶有視頻和音頻的視頻場景所生成的「真實的」自然文本。
盡管研究人員研究人員以對話歷史和語音記錄的形式,為模型提供了上下文,但是他們注意到,生成的文本包括了非文本形式的信息,例如幫助某人幫助某人站起來或者接電話等行為。
此外,由于Vx2Text可以高度整合、概括和真正理解多模態輸入中蘊含的信息,因此,基于生成的語義信息,它也可以回答各種各樣的問題:
Vx2Text可以用于工業界,比如,它可以用于為流媒體視頻添加標題來增加訪問性。
此外,這個框架也可能會用于YouTube和Vimeo等視頻分享平臺——這些平臺依賴字幕和其他信息來提高搜索結果的相關性。
研究人員表示:“我們的方法從將所有形式的信息映射到語義語言空間的想法出發,來實現直接應用強大語言模型——Transformer網絡的目標,這使得我們的整個模型都可以進行端到端的訓練?!?/font>
參考鏈接:
https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/
(聲明:本文僅代表作者觀點,不代表新浪網立場。)