首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設(shè)為書簽 Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點(diǎn)擊下載 | 新浪科技 | 新浪首頁 | 新浪導(dǎo)航

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠(yuǎn)無法模擬世界

2024-06-16 12:49:00    創(chuàng)事記 微博 作者:   

一直以來,對(duì)LLM的支持觀點(diǎn)之一,就是模型可以集成海量事實(shí)知識(shí),作為通往「世界模擬器」的基礎(chǔ)。

雖然也有不少人提出反對(duì),但沒有真憑實(shí)據(jù)。

那么,LLM可以作為世界模擬器嗎?

最近,亞利桑那大學(xué)、微軟、霍普金斯大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布了一篇論文,從實(shí)證的角度得出了否定的結(jié)論。

最新研究已被ACL 2024頂會(huì)接收。

論文地址:https://arxiv.org/pdf/2406.06485論文地址:https://arxiv.org/pdf/2406.06485

研究發(fā)現(xiàn),GPT-4在模擬基于常識(shí)任務(wù)的狀態(tài)變化時(shí),比如燒開水,準(zhǔn)確度僅有60%。

論文認(rèn)為,盡管GPT-4這樣的模型表現(xiàn)很驚艷,但如果沒有進(jìn)一步創(chuàng)新,它就不能成為可靠的世界模型。

為了量化LLM的規(guī)劃能力,作者提出了一個(gè)全新的基準(zhǔn)測(cè)試——bytesized32-state-prediction,并在上面運(yùn)行了GPT-4模型。

基準(zhǔn)測(cè)試的代碼和數(shù)據(jù)也已經(jīng)在GitHub上開源,可以幫助未來的研究繼續(xù)探查LLM的能力優(yōu)缺點(diǎn)。

https://github.com/cognitiveailab/GPT-simulatorhttps://github.com/cognitiveailab/GPT-simulator

一向?qū)ψ曰貧w語言模型無感的LeCun也轉(zhuǎn)發(fā)了這篇論文。

他用了非常強(qiáng)硬的語氣表示,「沒有世界模型,就沒有規(guī)劃能力」。

雖然如此,只憑一篇論文又怎么能平息LLM界的重大分歧?支持語言模型的網(wǎng)友很快就在評(píng)論區(qū)下面反駁LeCun——

網(wǎng)友:目前的LLM能達(dá)到約60%的準(zhǔn)確率(不專門為任務(wù)進(jìn)行訓(xùn)練),這至少是某種「世界模型」了,而且每一代LLM都在提升。

LeCun:世界模型不會(huì)是LLM。

網(wǎng)友:也許吧。但這并不意味著LLM內(nèi)部不存在某種(不準(zhǔn)確的)世界模型。

不過,在Hinton看來,AI已經(jīng)不再是僅僅依賴于過去,基于統(tǒng)計(jì)模型做下一個(gè)token的預(yù)測(cè),而是展現(xiàn)出更高的「理解」能力。

然而,大模型想要成為世界終極模擬器,還很遠(yuǎn)。

LLM是「世界模擬器」嗎?

模擬世界,對(duì)于AI學(xué)習(xí)和理解世界至關(guān)重要。

以往,多數(shù)情況下,可用模擬的廣度和深度受到現(xiàn)實(shí)的限制。因需要人類專家耗費(fèi)數(shù)周,甚至數(shù)月的時(shí)間做大量的工作。

而現(xiàn)在,大模型提供了一種替代的方法,即通過預(yù)訓(xùn)練數(shù)據(jù)集中大量知識(shí),獲得對(duì)世界的深刻理解。

但是,它們準(zhǔn)備好,直接用作模擬器了嗎?

對(duì)此,這項(xiàng)研究的團(tuán)隊(duì)在「文本游戲」這一領(lǐng)域,來檢驗(yàn)這一問題。

一般來說,在世界建模和模擬的背景下,應(yīng)用LLM有兩種方式:一是神經(jīng)符號(hào)化方法;二是直接模擬。

論文中,作者們首次對(duì)LLM直接模擬虛擬環(huán)境的能力,進(jìn)行了量化分析。

他們利用JSON模式的結(jié)構(gòu)化表示作為腳手架(scaffold),不僅提高了模擬精度,還可以直接探查LLM在不同領(lǐng)域的能力。

結(jié)果發(fā)現(xiàn),GPT-4普遍無法捕捉與智能體行為無直接關(guān)聯(lián)的「狀態(tài)轉(zhuǎn)移」(state transition)。

甚至還包括,涉及算術(shù)、常識(shí),或科學(xué)推理的狀態(tài)轉(zhuǎn)移。

在各種不同條件下,對(duì)于模擬一些復(fù)雜環(huán)境變化時(shí),GPT-4的準(zhǔn)確率不及59.9%。

同時(shí)也表明,LLM還不足以可靠地充當(dāng)世界模擬器。

那么,研究人員具體如何實(shí)現(xiàn)的?

研究方法

在文本環(huán)境中,智能體通過自然語言,完成特定的目標(biāo)。

他們將文本的虛擬環(huán)境形式化,建模為一種馬爾可夫決策過程(POMDP),共有7個(gè)元組:S, A, T , O, R, C, D。

其中,S表示狀態(tài)空間,A表示行動(dòng)空間,T:S×A→S表示狀態(tài)轉(zhuǎn)移函數(shù),O表示觀測(cè)函數(shù),R:S×A→R表示獎(jiǎng)勵(lì)函數(shù),C表示用自然語言描述目標(biāo)和動(dòng)作語義的「上下文信息」,D:S×A→{0,1}表示二元指示函數(shù),用0或1標(biāo)記智能體是否完成任務(wù)。

其中,上下文C為模型提供了除環(huán)境外的額外信息,比如行動(dòng)規(guī)則、物體屬性、打分規(guī)則和狀態(tài)轉(zhuǎn)換規(guī)則等等。

然后,研究人員還提出了一個(gè)預(yù)測(cè)任務(wù),稱為LLM-as-a-Simulator(LLM-Sim),作為定量評(píng)估大模型作為可靠模擬器的能力的一種方法。

LLM-Sim任務(wù)被定義為實(shí)現(xiàn)一個(gè)函數(shù)

)映射到后續(xù)的狀態(tài)、獎(jiǎng)勵(lì)和游戲完成狀態(tài)(即

作為世界模擬器,將給定的上下文、狀態(tài)和動(dòng)作(即

每個(gè)狀態(tài)轉(zhuǎn)移用如下的九元組表示:

實(shí)際上,整個(gè)狀態(tài)轉(zhuǎn)換模擬器F,應(yīng)該考慮兩種類型的狀態(tài)轉(zhuǎn)移:行為驅(qū)動(dòng)和環(huán)境驅(qū)動(dòng)的轉(zhuǎn)移。

對(duì)于圖1中的示例,行為驅(qū)動(dòng)的狀態(tài)轉(zhuǎn)移是在執(zhí)行「打開水槽」動(dòng)作后,水槽被打開。而環(huán)境驅(qū)動(dòng)的轉(zhuǎn)移是,當(dāng)水槽打開時(shí),水將填滿槽中的杯子。

此外,LLM的預(yù)測(cè)模式也分為兩種:預(yù)測(cè)下一步的完整狀態(tài),或者預(yù)測(cè)兩個(gè)時(shí)刻之間的狀態(tài)差。

為了更好地理解LLM對(duì)于每種狀態(tài)轉(zhuǎn)移的建模能力,研究人員進(jìn)一步將模擬器函數(shù)F分解為三種類型:

評(píng)估結(jié)果

建模了LLM的決策過程后,作者也同樣用文本構(gòu)建了一個(gè)虛擬人物場(chǎng)景。

Bytesized32-SP基準(zhǔn)測(cè)試的數(shù)據(jù)來源于公開的Bytesized32語料庫,其中有32個(gè)人類編寫的文字游戲。

留出一個(gè)游戲作為gold label后,測(cè)試集總共涉及31個(gè)游戲場(chǎng)景,7.6萬多個(gè)狀態(tài)轉(zhuǎn)換。

LLM根據(jù)上下文和前一個(gè)狀態(tài)進(jìn)行單步預(yù)測(cè),給出下一步時(shí)的物體屬性、任務(wù)進(jìn)展等信息。

規(guī)則方面,研究人員也提出了三種設(shè)定:由游戲作者撰寫、由LLM自動(dòng)生成,或者根本不提供規(guī)則。

設(shè)定好虛擬環(huán)境和任務(wù)規(guī)則后,作者運(yùn)行GPT-4進(jìn)行預(yù)測(cè)得到了如下結(jié)果。

為了嚴(yán)謹(jǐn)起見,作者根據(jù)狀態(tài)轉(zhuǎn)移前后預(yù)測(cè)結(jié)果是否變化,分成static和dynamic兩類分開統(tǒng)計(jì)。如果前后兩個(gè)狀態(tài)中,結(jié)果并沒有發(fā)生變化,LLM也會(huì)更容易預(yù)測(cè)。

不出意料,static一欄的準(zhǔn)確率基本都高于dynamic。

對(duì)于「靜態(tài)」轉(zhuǎn)移,模型在預(yù)測(cè)狀態(tài)差時(shí)表現(xiàn)更好。「動(dòng)態(tài)轉(zhuǎn)移」則相反,在完整狀態(tài)預(yù)測(cè)中得分更高。

作者猜測(cè),這可能是由于預(yù)測(cè)狀態(tài)差時(shí)需要減少潛在的格式錯(cuò)誤,這會(huì)為任務(wù)輸出帶來額外的復(fù)雜性。

還可以看到,預(yù)測(cè)動(dòng)作驅(qū)動(dòng)的狀態(tài)轉(zhuǎn)移的準(zhǔn)確率往往高于環(huán)境驅(qū)動(dòng)類。在dynamic欄,前者預(yù)測(cè)最高分有77.1,而后者最高只有49.7。

此外,游戲規(guī)則如何制定會(huì)很大程度上影響LLM的表現(xiàn)。

如果不提供游戲規(guī)則,LLM預(yù)測(cè)的性能會(huì)有明顯的大幅下降,但規(guī)則由人類制定或LLM自動(dòng)生成并不會(huì)顯著影響準(zhǔn)確率。

相比之下,規(guī)則制定對(duì)游戲進(jìn)度預(yù)測(cè)的影響更加明顯。

相比人類規(guī)則,LLM生成規(guī)則時(shí),GPT-4的預(yù)測(cè)有超過10個(gè)百分點(diǎn)的提升。難道真的是LLM之間更能相互理解?

以上結(jié)果都只是針對(duì)LLM在不同設(shè)定下的性能比較。和人類預(yù)測(cè)相比,結(jié)果如何呢?

為此,4位論文作者親自上陣和GPT-4一較高下。

不知道李世石看到這個(gè)結(jié)果會(huì)不會(huì)有所安慰。人類的總體準(zhǔn)確率在80%左右,遠(yuǎn)高于GPT-4在50%附近徘徊的成績(jī),這顯示了規(guī)劃能力上的重大差距。

對(duì)于規(guī)劃任務(wù)中的單步預(yù)測(cè)模型,每一步的模擬誤差都會(huì)累積并向后傳播,單步的低性能會(huì)很大程度上影響全局表現(xiàn)。

因此LLM較低的準(zhǔn)確率說明了,它并不能成為可靠的「文本世界模擬器」。

此外,人類準(zhǔn)確率的波動(dòng)幅度基本不大,說明任務(wù)設(shè)定比較簡(jiǎn)單、直接,適合人類的思維模式。

GPT-4這種較差的性能表現(xiàn)給我們提供了一個(gè)寶貴的機(jī)會(huì),可以更具體地剖析LLM究竟在哪方面出現(xiàn)了能力缺陷。

因此,論文作者將LLM的預(yù)測(cè)結(jié)果拆開仔細(xì)分析,發(fā)現(xiàn)在二元布爾值屬性上(is開頭的屬性),模型通常可以做得很好。

預(yù)測(cè)表現(xiàn)比較糟糕的,通常是一些非平凡屬性,比如需要算術(shù)運(yùn)算的temprature(溫度)、需要常識(shí)的current_aperture(當(dāng)前照相機(jī)光圈),或者需要科學(xué)知識(shí)的on(燈泡是否打開)。

相比之前的基準(zhǔn)測(cè)試,這似乎更準(zhǔn)確地暴露了LLM在常識(shí)和科學(xué)推理方面的缺陷。

此外,這也能反映出模型一些行為的「偏執(zhí)」之處。

在進(jìn)行完整預(yù)測(cè)時(shí),它通常過于關(guān)注動(dòng)作驅(qū)動(dòng)的狀態(tài)轉(zhuǎn)移而忽略了環(huán)境驅(qū)動(dòng),出現(xiàn)了很多「未改變值」的錯(cuò)誤。但是可以在分開預(yù)測(cè)的結(jié)果中看到,這些錯(cuò)誤是本可以避免的。

作者提出,這篇文章的局限性之一是只使用了GPT模型進(jìn)行測(cè)試,也許其他模型可以有不同的表現(xiàn)。

這項(xiàng)研究的意義更在于基準(zhǔn)測(cè)試的提出,為探索LLM在「世界模擬器」方面的潛力提供了一套可行的問題形式定義和測(cè)試流程。

(聲明:本文僅代表作者觀點(diǎn),不代表新浪網(wǎng)立場(chǎng)。)

分享到:
保存   |   打印   |   關(guān)閉