財聯(lián)社7月5日訊(編輯 瀟湘)在全球范圍內(nèi),人工智能軍備競賽最初的起點是追求“大”: 巨型模型在海量的數(shù)據(jù)上進行訓(xùn)練,試圖模仿具有人類智能水平的人工智能。
然而如今,大量科技巨頭和初創(chuàng)企業(yè)正在開始考慮縮小AI軟件的規(guī)模,使其更便宜、更快速、更專業(yè)……
這類AI軟件被稱為小型語言模型(SLM)或中型語言模型,使用較少的數(shù)據(jù)進行訓(xùn)練,通常專為特定任務(wù)而設(shè)計。
作為對比,那些知名的大型語言模型(LLM),如OpenAI的GPT-4,開發(fā)成本超過1億美元,訓(xùn)練的參數(shù)達到了逾1萬億。而較小的語言模型則通常在較窄的數(shù)據(jù)集上進行訓(xùn)練——例如,可能僅僅聚焦于法律問題上,其訓(xùn)練成本往往可能不到1000萬美元,參數(shù)不到100億。較小的模型也將消耗較少的算力,因此響應(yīng)每個查詢的成本也較低。
近幾個月來,微軟就正在大力宣傳其名為“Phi”輕量級AI模型系列。微軟首席執(zhí)行官Satya Nadella表示,這些模型的大小只有OpenAI的ChatGPT免費模型的1/100,而執(zhí)行許多任務(wù)的效果卻幾乎一樣好。
微軟首席商務(wù)官Yusuf Mehdi表示,“我認(rèn)為,我們越來越有理由相信,未來將是一個由不同(大小)模型組成的世界。”
Mehdi稱,微軟是全球首批在生成式人工智能上押注數(shù)十億美元的大型科技公司之一。而我們也很快意識到,人工智能的運營成本比公司最初預(yù)計的要高。
微軟最近還推出了新型的AI筆記本電腦,搭載數(shù)十個人工智能模型進行搜索和圖像生成。這些模型需要用到的數(shù)據(jù)非常少,可以在終端設(shè)備上運行,而不需要像ChatGPT那樣訪問龐大的基于云端的數(shù)據(jù)中心。
谷歌以及人工智能初創(chuàng)公司Mistral、Anthropic和Cohere今年也發(fā)布了更小的模型。蘋果在六月份公布該公司的AI路線圖時,也計劃使用小型模型,這樣就可以完全在手機上運行軟件,使其更為快捷方便、也更為安全。
就連一直處于大型模型模型浪潮前沿的OpenAI,也在5月發(fā)布了其旗艦?zāi)P偷男掳姹綠PT-4o,并稱該模型運營成本更低。一位發(fā)言人OpenAI表示,該公司對未來發(fā)布更小的模型持開放態(tài)度。
AI模型浪潮開始聚焦“小而美”
對于許多任務(wù)來說——比如匯總文檔或生成圖像,大型語言模型如今顯得可能會有些“奢侈”。一些行業(yè)人士將此形容為“相當(dāng)于開著坦克去買菜”。
目前從事區(qū)塊鏈技術(shù)研究的Illia Polosukhin是2017年谷歌一篇開創(chuàng)性論文的作者之一,該論文為當(dāng)前的生成式人工智能熱潮奠定了基礎(chǔ)。Polosukhin近來就表示,單單計算“2+2”不應(yīng)該需要進行無數(shù)次運算。
事實上,從財務(wù)成本的考量來看,在生成式人工智能技術(shù)的回報尚不明確的情況下,企業(yè)和消費者也一直在尋找以更低成本運行AI的方法。
位于以色列特拉維夫的人工智能公司AI21 Labs的聯(lián)合創(chuàng)始人Yoav Shoham稱,由于只需使用較少的算力,在許多情況下,小型模型回答問題的成本僅為大型語言模型的六分之一。如果你要進行數(shù)十萬甚至數(shù)百萬次回答,使用大模型在經(jīng)濟上其實行不通。
當(dāng)前的關(guān)鍵在于,如何更有效地將這些較小的模型集中在一組數(shù)據(jù)上,如內(nèi)部通信、法律文件或銷售數(shù)字,以執(zhí)行撰寫電子郵件等特定任務(wù)——這一訓(xùn)練過程被稱為微調(diào)(Fine-tuning)。通過微調(diào),可以讓小型模型在執(zhí)行這些任務(wù)時與大型語言模型一樣有效,而成本只是大型模型的一小部分。
初創(chuàng)公司Snorkel AI的聯(lián)合創(chuàng)始人Alex Ratner表示,“讓這些更小、更專業(yè)的模型在這些更枯燥但更重要的領(lǐng)域工作,是目前人工智能的前沿領(lǐng)域。”
Snorkel AI目前的業(yè)務(wù)范圍包括幫助企業(yè)定制人工智能模型。
企業(yè)用戶也正轉(zhuǎn)向小模型?
在企業(yè)用戶端,信用評級公司益百利近來已將其用于金融咨詢和客戶服務(wù)的AI聊天機器人,從大語言模型轉(zhuǎn)向了小語言模型。
益百利首席數(shù)據(jù)官Ali Khan表示,在公司內(nèi)部數(shù)據(jù)上進行訓(xùn)練時,小型模型的表現(xiàn)與大型模型不相上下,而成本僅為大型模型的一小部分。他表示,這些小模型可以針對一個明確的問題領(lǐng)域和一系列任務(wù)進行特定訓(xùn)練。
Salesforce人工智能部門主管Clara Shih則表示,這些小模型的響應(yīng)速度相比大模型也更快。
Shih稱,“使用大型模型你會付出過高的成本并且有延遲問題。有時候也根本用不著。”
值得一提的是,在開始向小語言模型轉(zhuǎn)變的同時,諸多AI巨頭大型語言模型的迭代速度也在放緩。
自O(shè)penAI去年發(fā)布GPT 4(與之前的模型GPT 3.5相比,功能有了顯著提升)以來,還沒有新的迭代模型(GPT 5)發(fā)布。研究人員認(rèn)為,造成這種情況的原因包括用于訓(xùn)練的高質(zhì)量新數(shù)據(jù)稀缺。
這一趨勢也讓人們開始更為關(guān)注小模型。領(lǐng)導(dǎo)Phi模型項目的微軟公司高管塞Sébastien Bubeck表示,“現(xiàn)在正是大家都在等待的一個小間歇期,這會讓人們的注意力轉(zhuǎn)向,他們會想,‘好吧,我們還能不能讓這些東西更高效?’”
目前,還不清楚這種迭代停滯是暫時的,還是遭遇了一個更為棘手的技術(shù)瓶頸問題。但是,小型語言模型的大量涌現(xiàn),仍說明了人工智能正在從科幻小說般的夢幻演示,演變成了不那么令人興奮的商業(yè)現(xiàn)實。
當(dāng)然,許多公司并沒有完全放棄大型語言模型。蘋果已宣布將在其Siri助手中加入ChatGPT,以執(zhí)行撰寫電子郵件等更復(fù)雜的任務(wù)。微軟表示,其最新版的Windows也將集成OpenAI的最新模型。不過,兩家公司都只是將OpenAI集成作為其整體人工智能方案的一部分,而顯然并沒有把所有的籌碼都押注于此。
責(zé)任編輯:于健 SF069
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)