科技首頁創事記互聯網電信 IT業界投稿

Facebook&哥大等推出實驗性AI框架，音視頻信息可自由轉換文本！

2021-02-21 12:02:15 創事記作者：

來源：新智元

對于人工智能來說，開發一個能可靠地理解世界、并使用自然語言作出反應的對話系統是一個很大的挑戰。

如果要達到這一目標，那么我們需要一個能夠從圖像、文本、音頻和視頻中提取突出信息，并以人類能夠理解的方式回答問題的模型。

最近，Facebook、哥倫比亞大學、佐治亞理工學院和達特茅斯大學的研究人員開發了Vx2Text——一個從視頻、語音或者音頻中生成文本的框架。他們聲稱，相比之前的最先進的方法，Vx2Text可以更好地創建說明文字并回答問題。

論文地址：

https://arxiv.org/pdf/2101.12059.pdf

與大多數人工智能系統不同，人類可以很自然地輕易理解文本、視頻、音頻和圖像在上下文語境中的含義：

例如，一些給定的文本和圖像，在分開討論的時候似乎無害，比如“看看有多少人愛你”和一張貧瘠沙漠的圖片，然而，人們會立即意識到，這些元素在結合在一起的時候，其實是具有潛在傷害性的。

多模態學習可以包含一些潛在互補的信息或者趨勢，不過，只有在學習中完全包含相關信息的時候，這些含義才能顯現。

對于Vx2Text,，“模態獨立“的分類器將來自視頻、文本或音頻的語義信號，轉換為公共語義語言空間，這使得語言模型能夠直接解釋多模態數據，從而為通過谷歌的T5等強大的語言模型進行多模態融合——即結合信號來支持分類——提供了可能。

圖：模型框架

Vx2Text中的生成式文本解碼器，將編碼器計算的多模態特征轉換為文本，使該框架適合于生成自然語言語義概括，如下圖：

研究人員在論文中寫道：“與之前的方法相比，這種設計不僅簡單得多，而且具有更好的性能?！?/font>

“更有用的是，它并不需要設計專門的算法，或者借鑒其他替代方法來實現多模態信息的組合”

在實驗中，研究人員展示了Vx2Text為帶有視頻和音頻的視頻場景所生成的「真實的」自然文本。

盡管研究人員研究人員以對話歷史和語音記錄的形式，為模型提供了上下文，但是他們注意到，生成的文本包括了非文本形式的信息，例如幫助某人幫助某人站起來或者接電話等行為。

此外，由于Vx2Text可以高度整合、概括和真正理解多模態輸入中蘊含的信息，因此，基于生成的語義信息，它也可以回答各種各樣的問題：

Vx2Text可以用于工業界，比如，它可以用于為流媒體視頻添加標題來增加訪問性。

此外，這個框架也可能會用于YouTube和Vimeo等視頻分享平臺——這些平臺依賴字幕和其他信息來提高搜索結果的相關性。

研究人員表示：“我們的方法從將所有形式的信息映射到語義語言空間的想法出發，來實現直接應用強大語言模型——Transformer網絡的目標，這使得我們的整個模型都可以進行端到端的訓練?！?/font>

參考鏈接：

https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

分享到:

保存 | 打印 | 關閉

首页国产亚洲小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看