安裝新浪財經客戶端第一時間接收最全面的市場資訊→【下載地址】
聊天機器人每一個巧妙的應答背后都有海量數據作為支撐——在某些情況下,需要從文章、書籍和網上評論中摘取數萬億個詞匯,以教會人工智能系統理解用戶的查詢。業界的傳統觀點是,創建下一代人工智能產品將會需要越來越多的信息。
然而,這個計劃存在一個大問題:互聯網上能夠提供的高質量數據是有限的。為了得到這些數據,人工智能公司通常的做法是,要么向出版商支付數百萬美元以獲得內容許可,要么從網站上下載數據,使自己面臨版權糾紛的風險。越來越多的頂流人工智能公司正在探索另一種在業內引發分歧的辦法:使用合成數據,從本質上來說就是假數據。
這種辦法的工作原理是這樣的:科技公司可以利用自己的人工智能系統來生成文字和其他媒體。然后,可以用這些人工數據訓練同一個系統的未來版本,Anthropic的首席執行官達里奧·阿莫代伊(Dario Amodei)稱之為潛在的“無限數據生成引擎”。這樣一來,人工智能公司就可以避免引發許多法律、道德和隱私方面的問題。
在計算中合成數據的想法并不新鮮——這項技術已經被使用了幾十年,涉及到從個人信息的去匿名化到自動駕駛技術路況模擬的各個領域。但是,生成式人工智能的興起使人們可以更容易大規模創建質量更高的合成數據,而且也使這種做法有了新的緊迫性。
在微軟,生成式人工智能研究團隊在最近的一個項目中使用了合成數據。他們希望構建一個規模較小、資源密集程度較低的人工智能模型,但仍具有有效的語言和推理能力。為了做到這一點,他們試圖模仿孩子通過閱讀故事來學習語言的方式。
該團隊并沒有向這個人工智能模型提供大量兒童讀物,而是列出了四歲孩子能夠理解的3000個詞匯。然后,他們要求這個人工智能模型使用詞匯表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。研究人員在幾天的時間內重復了數百萬次這個提示,生成了數百萬個短篇故事,最終幫助開發出了另一個更強大的語言模型。微軟已經將這個新的“小型”語言模型系列Phi-3開源并向公眾開放。
微軟生成式人工智能副總裁塞巴斯蒂安·布貝克(Sébastien Bubeck)說:“突然之間,你擁有了遠多于過去的控制權。你可以在更精細的層面上決定你希望自己的模型學習哪些東西。”
布貝克說,利用合成數據,你還可以通過為數據添加更多解釋來更好地指導人工智能系統完成學習過程,不然的話,機器在處理過程中可能會感到困惑。
但是,一些人工智能專家對這種技術存在的風險感到擔憂。牛津、劍橋和其他幾所知名大學的一組研究人員去年發表了一篇論文,解釋了使用ChatGPT生成的合成數據來構建新的人工智能模型為何會導致他們訴說的“模型崩潰”。
在他們的實驗中,基于ChatGPT的輸出內容創建的人工智能模型開始出現“不可逆轉的缺陷”,而且似乎失去了對最初訓練內容的記憶。舉例來說,研究人員用有關英國歷史建筑的文本提示一種大型語言人工智能模型。當他們使用合成數據多次重新訓練這個模型后,這個模型開始生成有關長耳大野兔的毫無意義的胡言亂語。
研究人員還擔心,合成數據可能會放大數據集當中的偏見和毒性。合成數據的一些支持者則表示,通過采取適當的措施,用這種方式開發的模型可以和基于真實數據構建的模型一樣準確甚至更好。
劍橋大學(University of Cambridge)博士扎哈爾·舒梅洛夫(Zakhar Shumaylov)在一封電子郵件中說道:“如果處理得當,合成數據會很有用。然而,對于如何才能處理得當,目前還沒有明確的答案;有些偏見對于人類來說可能很難察覺。”舒梅洛夫是上述關于模型崩潰論文的合著者之一。
還有一個更具哲學性的爭論:如果大型語言模型陷入根據自身內容進行訓練的無休止循環中,那么人工智能最終是否會變得不再是模仿人類智能的機器,而更多的是模仿其他機器語言的機器?
斯坦福大學(Stanford University)計算機科學教授珀西·梁(Percy Liang,音譯)表示,為了產生有用的合成數據,公司仍然需要真正的人類智慧結晶,比如書籍、文章和代碼。梁在一封電子郵件中說道:“合成數據不是真實的數據,就像你做夢登上了珠穆朗瑪峰并不是真正登頂了一樣。”
合成數據和人工智能領域的先驅們一致認為,你不能將人類排除在這個過程之外。我們仍然需要真人來創建和完善人工數據集。
布貝克說:“合成數據并不是簡單地按下一個按鈕然后對它說,‘嘿,幫我生成一些數據。’這是一個非常復雜的過程。在大規模創建合成數據的過程中需要投入大量的人力。”
責任編輯:歐陽名軍
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)