來源:新智元
幾年前,一個名為BERT的深度學習模型展示了自然語言處理(NLP)的重大進步。
BERT的核心結構基于一種被稱為Transformer的神經網絡,從完成搜索查詢和用戶寫的句子到語言翻譯,如今,它已經成為一系列NLP應用的基礎。
那么,拿什么證明這些模型真的很出色呢?
就像好學生是用成績來證明一樣。
也有一些測試項目應運而生,例如卡內基梅隆大學開發的大規模重新理解(Large-scale ReAding Comprehension, RACE),這是一個與高中階段理解能力相當的的測試基準。
這樣一來,它們就成了人工智能淘金熱中的營銷工具。
在Nvidia的年度技術會議上,黃仁勛就用用RACE宣稱其公司實施的BERT的高性能。
「普通人類得分73%,專家級人類得分95%。Nvidia的Megatron-BERT得分91%。」黃仁勛說,「Facebook AI Research開發了一個基于Transformer的聊天機器人,具有知識、個性和同理心,跟人類相比,一半的測試用戶更喜歡它。」
隨著GPT-3的發布,性能又提升了一個檔次,GPT-3是OpenAI公司開發的一系列語言模型的最新迭代,擁有1750億個可訓練參數,是BERT最大版本的500倍。
「容量」賦予了GPT-3令人印象深刻的能力。
大多數其他基于Transformer的系統需要一個訓練序列,對深度神經網絡(DNN)管道的最后幾層進行微調,以適應特定的應用,例如語言翻譯,而OpenAI承諾GPT-3可以免除廣泛的微調需求,因為其核心訓練集的規模非常大。
測試表明,GPT-3有能力根據簡短的提示構建長篇文章。
然而,這個龐大的系統也有容易顯現的缺陷。
例如,向GPT-3提出的問題往往會得到一個難以理解的超現實主義答案。比如說它聲稱草有眼睛,或者在某些情況下聲稱一匹馬有四只眼睛。
不久后,OpenAI發表了一篇論文,他們在文中質疑了純粹為語言建模而訓練的龐大模型的局限性。
這些語言模型性能的關鍵于他們的「知識儲備」,但很遺憾,他們從維基百科、Reddit等社交媒體搜集了新源,這些信息本身就摻雜矛盾。
早期的方法使用了單詞嵌入,其中每個離散的單詞使用聚類算法轉換為數字向量。在用于訓練的語料中,最常圍繞它的詞決定了向量的值。但這些方法遇到了問題,因為它們無法對具有多重含義的詞進行區分。
而BERT考慮到了單詞的靈活含義。
他們使用多層神經網絡構造,即所謂的Transformers,不是將向量分配給單獨的詞,而是分配給模型在掃描訓練集時發現的不同語境中的詞和子詞。
雖然Transformer會將單詞及其詞干與不同的語境聯系起來,但他們實際學習的單詞和語境之間是什么關系,仍然不夠明確。
這種不確定性催生了馬薩諸塞大學洛厄爾分校助理教授Anna Rumshisky及其同事所稱的「BERT學」。
在這樣的研究中,BERT是一個特別的焦點,因為它的源代碼是可用的,相比之下,規模大得多的GPT-3只能通過API訪問。
仔細觀察,就會發現這些「傻瓜」模型顯然缺乏對世界的理解,恰恰這也是被推向真正的應用最需要的。
在實踐中,它們大多是根據訓練材料中單詞的近似性進行聯想,因此,基于Transformer的模型經常會弄錯基本信息。
例如,南加州大學(USC)Xiang Ren團隊的博士生Bill Yuchen Lin就發了一套測試,來探究語言模型對數字問題給出合理答案的能力。
例如,在運行BERT時,它聲稱一只鳥「有兩條腿」的概率是「兩條腿」的2倍。它也可以給出矛盾的答案。
另一方面,雖然BERT「堅信」一輛車擁有四個輪子,但如果將說法限定為「圓形輪子」,那么該車型聲稱它更有可能「只運動兩個輪子」。
潛在的偏見是另一個亟需解決的問題。
艾倫人工智能研究所的Yejin Choi及其同事的工作表明,原因在于語料庫的來源——很遺憾,它們大多為reddit。然而,即使是維基百科這種偏見稍弱的地方,也會得到激進偏見的結果。
「對內容進行消毒是非常可取的,但由于潛在有毒語言的微妙之處,這可能并不完全可能。」Choi說。
當然,「常識性訓練」是個解決辦法。
但Choi指出,「偏見」無處不在。
所以,要想進行「常識性訓練」,就需要手工建立一個庫,例如現在的ConceptNet,ConceptNet是由MIT構建的語義網絡,其中包含了大量計算機應該了解的關于這個世界的信息,這些信息有助于計算機做更好的搜索、回答問題以及理解人類的意圖。它由一些代表概念的結點構成,這些概念以自然語言的單詞或者短語形式表達,并且其中標示了這些概念的關系。
但它遠非全面。
然而,目前仍不清楚Transformer的神經網絡設計本身是否提供了一個合適的結構來表示它試圖存儲的知識。斯坦福大學的博士后研究員Antoine Bosselut說:「這是這個領域最有趣的問題之一,需要回答。我們還不知道常識性知識究竟是如何被編碼的。而我們也不知道語言屬性是如何被編碼的。」?
為了提高語言模型的能力,日本IBM的高級技術人員Tetsuya Nasukawa表示,他和他的同事在創建他們的視覺概念命名(VCN)系統時,從圖像和語言共同用于教育兒童的方式中獲得了靈感。
這利用社交媒體上的圖片和文字,將物體與經常用來描述它們的詞語聯系起來,因為不同的文化和民族可能會使用截然不同的術語來指稱同一事物,而僅靠文字的傳統訓練是無法捕捉到的。
「我們認為,通過使用視覺信息來處理位置、形狀和顏色等非文字信息是必不可少的。」他說。
另一種方法,Ren的小組已經使用過,就是將現有的手工構建的知識庫與Transformer進行耦合,而不是試圖教授語言模型的常識。KagNet結合第二個神經網絡對BERT實現進行微調,該神經網絡對ConceptNet知識庫中存儲的信息進行編碼。
很多人在這條道路走得很遠,但事實上,語言建模的下一次迭代可能會開啟一套新的能力,而這些能力是當前一代人所不具備的。
這就是The Best of NLP:對不同的觀點持開放態度。
參考資料:
https://cacm.acm.org/magazines/2021/4/251336-the-best-of-nlp/fulltext
AI家,新天地。西山新綠,新智元在等你!
【新智元高薪誠聘】主筆、高級編輯、商務總監、運營經理、實習生等崗位,歡迎投遞簡歷至wangxin@aiera.com.cn (或微信: 13520015375)
辦公地址:北京海淀中關村軟件園3號樓1100
(聲明:本文僅代表作者觀點,不代表新浪網立場。)