首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設為書簽 Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點擊下載 | 新浪科技 | 新浪首頁 | 新浪導航

拯救“沒常識”的GPT-3得靠它了,交大ACM班校友提出“Voken” 無監督學習 | EMNLP 2020

2020-11-24 12:39:58    創事記 微博 作者:   

原標題:拯救“沒常識”的GPT-3得靠它了,交大ACM班校友提出“Voken” 無監督學習 | EMNLP 2020 來源:量子位

關注前沿科技

曉查 發自 凹非寺?
量子位 報道 | 公眾號 QbitAI

曉查 發自 凹非寺?

量子位 報道 | 公眾號 QbitAI

縱使地表最強語言模型GPT-3學習了30億個單詞的英文維基百科,但是依然會犯低級錯誤。

如果你問它:太陽有幾只眼睛?

GPT-3會說“有一只”,不會意識到這個問題本身就是錯誤的。

因為僅受文本的訓練很難讓AI具備常識。

而人類靠“聽說讀寫”全方位來學習一門語言,小時候還會有“看圖說話”之類的訓練。可見語言能力的形成絕不只能靠單調的語料庫來解決。

因此北卡羅來納大學教堂山分校(UNC Chapel Hill)的研究人員設計了一種新技術——Vokenization——來改變純語言模型學習能力不足的現狀。

用圖像和語言聯合訓練AI并不是什么新鮮事,但這一次他們使用了無監督方法擴展了有限的圖像資源,對于視覺語言模型來說是一項重要突破。

該論文已經被EMNLP 2020收錄,相關代碼也已經開源

解決圖片數據集不足問題

要讓AI像人類一樣從“圖片卡”學習語言并非易事。

因為圖像數據集和純文字語料庫之間,無論是大小還是分布上,都存在著巨大的差異。

例如,下面的圖片在視覺語言數據集中被描述為:“一只橘貓坐在一個準備打包的行李箱里。”

用這樣的數據集訓練,可以教會AI模型如何從動詞介詞中識別對象以及它們之間的關系。

但手工編寫句子的工作量是巨大的,大部分圖像數據集只會用“貓”這一個詞來描述圖片。只有用無監督方法才能讓AI學習到更大的數據集。

GPT-3可以通過無監督學習進行訓練,這個過程不需要人工數據標注,訓練數據集可以做到非常大。而目標識別算法雖然能讓AI從現實中學到更多知識,卻存在著樣本數量太少的問題。

比如,COCO數據集僅有150萬個已標記的目標實例、700萬個單詞,而英文維基百科語料庫有近30億個單詞。

從token到voken

Vokenization解決了這個問題,它使用無監督學習方法將樣本數量較少的COCO數據集擴展到英文維基百科的大小。

研究NLP的人都知道,用于訓練語言模型的單詞稱為token,作者將圖像問題中的每個token相關的圖像稱為“voken”

論文作者不從語言數據集開始,并使用無監督學習來將每個單詞與相關圖像進行匹配,這是一個高度可擴展的過程。

Transformer是人們首次引入無監督學習用于NLP,它根據單詞上下文創建每個單詞的嵌入。比如“貓”一詞的嵌入表明,它經常在“喵”和“橘色”兩詞附近使用,而很少和“樹皮”或“藍色”這樣的詞一起使用。

有一種平行技術也可以用于圖像的“上下文”,它能列出了貓在床上而不是樹上出現的頻率,并創建了嵌入該上下文信息的“貓”。

研究人員在COCO上同時使用兩種嵌入技術。他們將圖像轉換為視覺嵌入,將文字描述轉換為單詞嵌入。

在特征空間中,相近的單詞嵌入其對應的視覺嵌入也離得更近。一旦將所有視覺嵌入進行比較并相互關聯,就很容易將圖像與單詞進行匹配。

當一個詞在不同語境中含義完全不同時,這很有用。Vokenization技術通過為每個單詞實例找到不同的voken成功地解決了這一問題。

比如contact這個單詞,當它在左邊這幅圖中出現的時候表示“聯系人”,而在右邊這幅圖中出現時表示“接觸”。

經過這種處理方式,算法找到了英文維基百科40%的token對應的voken。雖然沒有找全,但是token總共有個30億個啊!即使只有40%也大大擴展了數據集。

利用這個數據集,研究人員重新訓練了BERT,在GLUE、SQuAD和SWAG等測試標準上,均優于純文本訓練的結果。

NLP初創公司Hugging Face的聯合創始人Thomas Wolf認為,他們的工作是使無監督學習適用于視覺語言模型的一項重要的概念突破,有助于大大推動NLP技術的發展。

作者簡介

這篇論文的第一作者是譚昊,本科畢業于上海交大ACM班,現正在北卡羅來納大學教堂山分校攻讀博士學位。

△?譚昊(圖片來自彭博)?譚昊(圖片來自彭博)

譚昊曾獲得2019~2020彭博數據科學博士獎學金,他以一作身份發表的論文分別被AAAI、NAACL 、ACL、EMNLP、IJCAI等頂會收錄。

譚昊的導師Mohit Bansal教授是本文的通訊作者,他還是北卡大學教堂山分校MURGe實驗室主任。

△?Mohit Bansal(圖片來自UNC官網)?Mohit Bansal(圖片來自UNC官網)

論文地址:

https://arxiv.org/abs/2010.06775

代碼地址:

https://github.com/airsplay/vokenization

第三方解讀:

https://www.youtube.com/watch?v=4T1u3Z2DaZA&ab_channel=DeepLearningExplainer

本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。

「MEET 2021智能未來大會」啟幕,

早鳥票限時搶購中,掃碼預定席位!

李開復博士、尹浩院士、清華唐杰教授,以及來自小米美團愛奇藝小冰亞信浪潮、容聯、澎思地平線G7等知名AI大廠的大咖嘉賓齊聚,期待關注AI的朋友報名參會、共探新形勢下智能產業發展之路。

量子位?QbitAI · 頭條號簽約作者

?'?' ? 追蹤AI技術和產品新動態

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

分享到:
保存   |   打印   |   關閉