科技首頁創(chuàng)事記互聯(lián)網(wǎng) 電信 IT業(yè)界投稿

震驚科學(xué)界！微軟154頁研究刷屏：GPT-4能力接近人類，“天網(wǎng)”初現(xiàn)？

2023-03-26 12:19:49 創(chuàng)事記作者：新智元

　　新智元報(bào)道

　　編輯：編輯部

　　【新智元導(dǎo)讀】在通往AGI的路上我們還有多遠(yuǎn)？微軟豪華作者團(tuán)隊(duì)發(fā)布的154頁論文指出，GPT-4已經(jīng)初具通用人工智能的雛形。

　　GPT-4會(huì)演變?yōu)橥ㄓ萌斯ぶ悄軉幔?/p>

　　Meta首席人工智能科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun對此表示質(zhì)疑。

　　在他看來，大模型對于數(shù)據(jù)和算力的需求實(shí)在太大，學(xué)習(xí)效率卻不高，因此學(xué)習(xí)‘世界模型’才能通往AGI之路。

　　不過，微軟最近發(fā)表的154頁論文，似乎就很打臉。

　　在這篇名為‘Sparks of Artificial General Intelligence： Early experiments with GPT-4’的論文中，微軟認(rèn)為，雖然還不完整，但GPT-4已經(jīng)可以被視為一個(gè)通用人工智能的早期版本。

　　論文地址：https：//arxiv.org/pdf/2303.12712.pdf

鑒于 GPT-4 能力的廣度和深度，我們相信它應(yīng)該被合理視作一個(gè)通用人工智能（AGI）系統(tǒng)的早期（但仍不完整）版本。

本文的主要目標(biāo)是對 GPT-4 的能力和局限性進(jìn)行探索，我們相信 GPT-4 的智能標(biāo)志著計(jì)算機(jī)科學(xué)及其他領(lǐng)域的真正范式轉(zhuǎn)變。

　　AGI的智能體現(xiàn)在能夠像人類一樣思考和推理，并且還能夠涵蓋廣泛的認(rèn)知技能和能力。

　　論文中，指出AGI具有推理、規(guī)劃、解決問題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和經(jīng)驗(yàn)學(xué)習(xí)能力。

　　從參數(shù)規(guī)模上來看，Semafor報(bào)道稱GPT-4有1萬億個(gè)參數(shù)，是GPT-3（1750個(gè)參數(shù)）的6倍大。

　　網(wǎng)友用GPT參數(shù)規(guī)模大腦神經(jīng)元做了類比：

　　GPT-3的規(guī)模與刺猬大腦類似（1750億個(gè)參數(shù)）。如果GPT-4擁有1萬億個(gè)參數(shù)，我們就接近松鼠大腦的規(guī)模了。以這個(gè)速度發(fā)展下去，也許只需要幾年時(shí)間，我們就能達(dá)到并超越人類大腦的規(guī)模（170萬億個(gè)神經(jīng)元）。

　　由此看來，GPT-4距離成為‘天網(wǎng)’也不遠(yuǎn)了。

　　而這篇論文，還被扒出不少趣事。

　　論文發(fā)布不久后，一位網(wǎng)友在推特上爆出從他們的latex源代碼中發(fā)現(xiàn)了隱藏信息。

　　在未刪減版的論文中，GPT-4實(shí)際上也是該論文的隱藏第三作者，內(nèi)部名稱 DV-3，后被刪除。

　　有趣的是，就連微軟研究人員對GPT-4的技術(shù)細(xì)節(jié)并不清楚。另外，這篇論文還刪除了GPT-4在沒有任何提示的情況下產(chǎn)生的有毒內(nèi)容。

　　GPT-4初具AGI雛形

　　這篇論文的研究對象，是GPT-4的早期版本。它還處于早期開發(fā)階段時(shí)，微軟的研究者就對它進(jìn)行了各種實(shí)驗(yàn)和測評(píng)。

　　在研究者看來，這個(gè)早期版本的GPT-4，就已經(jīng)是新一代LLM的代表，并且相較于之前的人工智能模型，展現(xiàn)出了更多的通用智能。

　　通過測試，微軟的研究者證實(shí)：GPT-4不僅精通語言，還能在數(shù)學(xué)、編程、視覺、醫(yī)學(xué)、法律、心理學(xué)等多樣化和高難度的任務(wù)中表現(xiàn)出色，且無需特別提示。

　　令人驚奇的是，在所有這些任務(wù)中，GPT-4 的表現(xiàn)已經(jīng)接近人類水平，并且時(shí)常超過之前的模型，比如ChatGPT。

　　因此，研究者相信，鑒于GPT-4在廣度和深度上的能力，它可以被視為通用人工智能（AGI）的早期版本。

　　那么，它朝著更深入、更全面的AGI前進(jìn)的路上，還有哪些挑戰(zhàn)呢？研究者認(rèn)為，或許需要尋求一種超越‘預(yù)測下一個(gè)詞’的新范式。

　　如下關(guān)于GPT-4能力的測評(píng)，便是微軟研究人員給出關(guān)于GPT-4是AGI早期版本的論據(jù)。

　　多模態(tài)和跨學(xué)科能力

　　自GPT-4發(fā)布后，大家對其多模態(tài)能力的印象還停留在Greg Brockman當(dāng)時(shí)演示的視頻上。

　　這篇論文第二節(jié)中，微軟最先介紹了它的多模態(tài)能力。

　　GPT-4不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和程序設(shè)計(jì)等不同領(lǐng)域表現(xiàn)出高度熟練程度，而且它還能夠?qū)⒍鄠€(gè)領(lǐng)域的技能和概念統(tǒng)一起來，并能理解其復(fù)雜概念。

　　綜合能力

　　研究人員分別用以下4個(gè)示例來展示GPT-4在綜合能力方面的表現(xiàn)。

　　第一個(gè)示例中，為了測試GPT-4將藝術(shù)和編程結(jié)合的能力，研究人員要求GPT-4生成 javascript代碼，以生成畫家 Kandinsky風(fēng)格的隨機(jī)圖像。

　　如下為GPT-4實(shí)現(xiàn)代碼過程：

　　在文學(xué)和數(shù)學(xué)結(jié)合上，GPT-4能夠以莎士比亞的文學(xué)風(fēng)格證明質(zhì)數(shù)是無窮多的。

　　此外，研究還測試了GPT-4將歷史知識(shí)和物理知識(shí)結(jié)合起來的能力，通過要求其撰寫一封支持Electron競選美國總統(tǒng)的信，信是由圣雄甘地寫給他的妻子的。

　　通過提示GPT-4為一個(gè)程序生成python代碼，該程序?qū)⒒颊叩哪挲g、性別、體重、身高和血液檢測結(jié)果向量作為輸入，并指出患者是否處于糖尿病風(fēng)險(xiǎn)增加的狀態(tài)。

　　通過測試，以上例子表明GPT-4不僅能夠?qū)W習(xí)不同領(lǐng)域和風(fēng)格的一些通用原則和模式，還能以創(chuàng)造性的方式將其結(jié)合。

　　視覺

　　當(dāng)提示GPT-4使用可伸縮矢量圖形（SVG）生成物體圖像，如貓、卡車或字母時(shí)，該模型生成的代碼通常會(huì)編譯成相當(dāng)詳細(xì)，且可識(shí)別的圖像，如下圖：

　　然而，許多人可能會(huì)認(rèn)為GPT-4只是從訓(xùn)練數(shù)據(jù)中復(fù)制了代碼，其中包含類似的圖像。

　　其實(shí)GPT-4不僅是從訓(xùn)練數(shù)據(jù)中的類似示例中復(fù)制代碼，而且能夠處理真正的視覺任務(wù)，盡管只接受了文本訓(xùn)練。

　　如下，提示模型通過結(jié)合字母Y、O和H的形狀來繪制一個(gè)人。

　　在生成過程中，研究人員使用draw-line和draw-circle命令創(chuàng)建了O、H和Y的字母，然后GPT-4設(shè)法將它們放置在一個(gè)看起是合理的人形圖像中。

　　盡管GPT-4并沒有經(jīng)過關(guān)于字母形狀的認(rèn)識(shí)的訓(xùn)練，仍舊可以推斷出，字母Y可能看起來像一個(gè)手臂朝上的軀干。

　　在第二次演示中，提示GPT-4糾正軀干和手臂的比例，并將頭部放在中心位置。最后要求模型添加襯衫和褲子。

　　如此看來，GPT-4從相關(guān)訓(xùn)練數(shù)據(jù)中、模糊地學(xué)習(xí)到字母與一些特定形狀有關(guān)，結(jié)果還是不錯(cuò)的。

　　為了進(jìn)一步測試GPT-4生成和操作圖像的能力，我們測試了它遵循詳細(xì)指令創(chuàng)建和編輯圖形的程度。這項(xiàng)任務(wù)不僅需要生成能力，還需要解釋性、組合性和空間性能力。

　　第一個(gè)指令是讓GPT-4生成2D圖像，prompt為：

　　‘A frog hops into a bank and asks the teller， ‘Do you have any free lily pads？’ The teller responds， ‘No， but we do o er low interest loans for pond upgrades’

　　通過多次嘗試，GPT-4每一次都生成符合描述的圖像。然后，要求GPT-4添加更多細(xì)節(jié)來提高圖形質(zhì)量，GPT-4添加了銀行、窗戶、汽車等符合現(xiàn)實(shí)邏輯的物體。

　　我們的第二個(gè)示例是嘗試使用Javascript生成一個(gè)3D模型，同樣通過指令GPT-4完成了許多任務(wù)。

　　另外，GPT-4在草圖生成方面，能夠結(jié)合運(yùn)用Stable Difusion的能力。

　　下圖為3D城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有4個(gè)按鈕，顏色分別為綠色、藍(lán)色、棕色和紅色。生成結(jié)果如下：

　　音樂

　　研究人員要求GPT-4用ABC記譜法編碼生成和修改曲調(diào)，如下：

　　通過探究GPT-4在訓(xùn)練中獲得了多少技能，研究人員發(fā)現(xiàn)GPT-4能夠在ABC記譜法中產(chǎn)生有效的旋律，并在一定程度上解釋和操作其中的結(jié)構(gòu)。

　　然而，研究人員無法讓GPT-4產(chǎn)生任何非平凡的和聲形式，比如無法譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。

　　編程能力

　　此外，研究人員還展示了GPT-4能夠以非常高的水平進(jìn)行編碼能力，無論是根據(jù)指令編寫代碼，還是理解現(xiàn)有代碼方面都展現(xiàn)出超強(qiáng)能力。

　　在根據(jù)指令編寫代碼方面，研究人員演示了一個(gè)讓GPT-4寫python函數(shù)的例子。

　　代碼生成后，研究人員使用軟件工程面試平臺(tái)LeetCode在線判斷代碼是否正確。

　　對于大家都在用討論LeetCode正確率僅有20%，論文作者Yi Zhang對此進(jìn)行了反駁。

　　另外，還讓GPT-4將上表中LeetCode的準(zhǔn)確率數(shù)據(jù)可視化為圖表，結(jié)果如圖所示。

　　GPT-4 不僅可以完成普通的編程工作，還能勝任復(fù)雜的 3D 游戲開發(fā)。

　　研究者讓GPT-4用JavaScript在HTML中編寫3D游戲，GPT-4在零樣本的情況下生成了一個(gè)滿足所有要求的游戲。

　　在深度學(xué)習(xí)編程中，GPT-4不僅需要數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)，還需要對PyTorch、TensorFlow、Keras等框架和庫熟悉。

　　研究人員要求GPT-4和ChatGPT編寫一個(gè)自定義優(yōu)化器模塊，并為其提供了自然語言描述，其中包括一系列重要的操作，例如應(yīng)用SVD等等。

　　除了根據(jù)指令編寫代碼，GPT-4在理解代碼上展現(xiàn)出超強(qiáng)的能力。

　　研究者嘗試讓GPT-4和ChatGPT讀懂一段C/C++程序，并預(yù)測程序的輸出結(jié)果，二者的表現(xiàn)如下：

　　標(biāo)黃的地方是GPT-4富有洞察力的觀點(diǎn)，而紅色標(biāo)記代表ChatGPT出錯(cuò)的地方。

　　通過編碼能力測試，研究者發(fā)現(xiàn)GPT-4可以處理各種編碼任務(wù)，從編碼挑戰(zhàn)到實(shí)際應(yīng)用，從低級(jí)匯編到高級(jí)框架，從簡單數(shù)據(jù)結(jié)構(gòu)到復(fù)雜的程序。

　　此外，GPT-4還可以推理代碼執(zhí)行、模擬指令的效果，并用自然語言解釋結(jié)果。GPT-4甚至可以執(zhí)行偽代碼。

　　數(shù)學(xué)能力

　　在數(shù)學(xué)能力上，相比于之前的大語言模型，GPT-4已經(jīng)取得了質(zhì)的飛躍。即便是面對專門精調(diào)的Minerva，在性能上也有明顯提升。

　　不過，距離專家水平還相去甚遠(yuǎn)。

　　舉個(gè)例子：每年兔子的種群數(shù)量會(huì)增加a倍，而在年底的最后一天，有b只兔子被人類領(lǐng)養(yǎng)。假設(shè)第一年的第一天有x只兔子，已知3年后兔子的數(shù)量將變?yōu)?7x-26。那么，a和b的值分別是多少？

　　為了解決這個(gè)問題，我們首先需要得出每年兔子數(shù)量變化的正確表達(dá)式，通過這種遞歸關(guān)系推導(dǎo)出一個(gè)方程組，進(jìn)而得到答案。

　　這里，GPT-4成功地得出了解決方案，并提出了一個(gè)合理的論點(diǎn)。相比之下，在幾次獨(dú)立嘗試中，ChatGPT始終無法給出正確的推理和答案。

　　高等數(shù)學(xué)

　　接下來，我們直接上個(gè)難的。比如，下面這道出自2022年國際數(shù)學(xué)奧林匹克競賽（IMO）的問題（簡化版）。

　　該題與本科微積分考試的不同之處在于，它不符合結(jié)構(gòu)化的模板。解決這個(gè)問題需要更有創(chuàng)造性的方法，因?yàn)闆]有明確的策略來開始證明。

　　例如，將論證分為兩種情況（g（x） > x^2 和 g（x） < x^2）的決定并不明顯，選擇y*的原因也是如此（在論證過程中，它的原因才變得明確）。此外，解決方案需要本科級(jí)別的微積分知識(shí)。

　　盡管如此，GPT-4還是給出了一個(gè)正確的證明。

　　第二個(gè)關(guān)于算法和圖論的討論，則可以與研究生水平的面試相媲美。

　　對此，GPT-4能夠?qū)σ粋€(gè)與約束滿足問題相關(guān)的抽象圖構(gòu)造進(jìn)行推理，并從中得出關(guān)于SAT問題的正確結(jié)論（據(jù)我們所知，這種構(gòu)造在數(shù)學(xué)文獻(xiàn)中并未出現(xiàn)）。

　　這次對話反映出GPT-4對所討論的本科級(jí)數(shù)學(xué)概念的深刻理解，以及相當(dāng)程度的創(chuàng)造力。

　　盡管GPT-4在一次回答中把2^n/2寫成了2^n-1，但著似乎更像是我們俗稱的‘筆誤’，因?yàn)樗髞硖峁┝斯降恼_推廣。

　　此外，研究者在兩個(gè)通常用作基準(zhǔn)的數(shù)學(xué)數(shù)據(jù)集上比較GPT-4、ChatGPT和Minerva的性能：GSM8K和MATH 。

　　結(jié)果發(fā)現(xiàn)，GPT4在每個(gè)數(shù)據(jù)集上的測試都超過了Minerva，并且在兩個(gè)測試集的準(zhǔn)率都超過80% 。

　　再來細(xì)看GPT4犯錯(cuò)的原因，68%都是計(jì)算錯(cuò)誤，而不是解法錯(cuò)誤。

　　與世界互動(dòng)

　　智能另一個(gè)關(guān)鍵的體現(xiàn)就是交互性。

　　交互性對于智能很重要，因?yàn)樗怪悄荏w能夠獲取和應(yīng)用知識(shí)，解決問題，適應(yīng)不斷變化的情況，并實(shí)現(xiàn)超出其自身能力的目標(biāo)。

　　由此，研究者從工具使用和具體的交互兩個(gè)維度研究了GPT-4的交互性。GPT-4在回答如下問題時(shí)能夠搜索引擎或API等外部工具。

　　與人類互動(dòng)

　　論文中，研究者發(fā)現(xiàn)了GPT-4可以建立人類的心智模型。

　　研究設(shè)計(jì)了一系列測試來評(píng)估GPT-4、ChatGPT和text-davinci-003的心智理論的能力。比如理解信仰，GPT-4成功通過了心理學(xué)中的Sally-Anne錯(cuò)誤信念測試。

　　還有測試GPT-4在復(fù)雜情境下推斷他人情緒狀態(tài)能力的表現(xiàn)：

　　-湯姆為什么做出悲傷的表情？-亞當(dāng)認(rèn)為是什么導(dǎo)致了湯姆的悲傷表情？

　　通過多輪測試，研究人員發(fā)現(xiàn)在需要推理他人心理狀態(tài)，并提出符合現(xiàn)實(shí)社交場景中的方案，GPT-4表現(xiàn)優(yōu)于ChatGPT和text-davinci-003。

　　局限性

　　GPT-4所采用的‘預(yù)測下一個(gè)詞’模式，存在著明顯的局限性：模型缺乏規(guī)劃、工作記憶、回溯能力和推理能力。

　　由于模型依賴于生成下一個(gè)詞的局部貪婪過程，而沒有對任務(wù)或輸出的全局產(chǎn)生深入的理解。因此，GPT-4擅長生成流暢且連貫的文本，但不擅長解決無法以順序方式處理的復(fù)雜或創(chuàng)造性問題。

　　比如，用范圍在0到9之間的四個(gè)隨機(jī)數(shù)進(jìn)行乘法和加法運(yùn)算。在這個(gè)連小學(xué)生都能解決的問題上，GPT-4的準(zhǔn)確率僅為58%。

　　當(dāng)數(shù)字在10到19之間，以及在20到39之間時(shí)，準(zhǔn)確率分別降至16%和12%。當(dāng)數(shù)字在99到199的區(qū)間時(shí)，準(zhǔn)確率直接降至0。

　　然而，如果讓 GPT-4‘花時(shí)間’回答問題，準(zhǔn)確率很容易提高。比如要求模型使用以下提示寫出中間步驟：

116 * 114 + 178 * 157 = ？

讓我們一步一步思考，寫下所有中間步驟，然后再產(chǎn)生最終解。

　　此時(shí)，當(dāng)數(shù)字在1-40的區(qū)間時(shí)，準(zhǔn)確率高達(dá)100%，在1-200的區(qū)間時(shí)也達(dá)到了90%。

　　馬庫斯發(fā)文反駁

　　有意思的是，就在微軟這篇論文發(fā)表后不久，馬庫斯立馬寫出一篇博客，稱微軟的觀點(diǎn)‘非常荒謬’。

　　并引用了圣經(jīng)中的一句話‘驕傲在敗壞以先，狂心在跌倒之前。（箴16：18）’

GPT-4怎么就算得上早期AGI了？這么說的話，計(jì)算器也算，Eliza和Siri更算。這個(gè)定義就很模糊，很容易鉆空子。

　　在馬庫斯看來，GPT-4和AGI沒什么關(guān)系，而且GPT-4跟此前一樣，缺點(diǎn)依舊沒有解決，幻覺還存在，回答的不可靠性也沒有解決，甚至作者自己都承認(rèn)了復(fù)雜任務(wù)的計(jì)劃能力還是不行。

　　他的擔(dān)憂的是OpenAI和微軟的這2篇論文，寫的模型完全沒有披露，訓(xùn)練集和架構(gòu)什么都沒有，光靠一紙新聞稿，就想宣傳自己的科學(xué)性。

　　所以說論文里號(hào)稱的‘某種形式的AGI’是不存在的，科學(xué)界根本無法對其進(jìn)行驗(yàn)證，因?yàn)橐矡o法獲得訓(xùn)練數(shù)據(jù)，而且似乎訓(xùn)練數(shù)據(jù)已經(jīng)受到了污染。

　　更糟糕的是，OpenAI已經(jīng)自己開始將用戶實(shí)驗(yàn)納入訓(xùn)練語料庫了。這樣混淆視聽后，科學(xué)界就沒法判斷GPT-4的一個(gè)關(guān)鍵能力了：模型是否有能力可以對新測試案例進(jìn)行歸納。

　　如果OpenAI不在這里給自己戴上科學(xué)的高帽子，馬庫斯可能也不會(huì)這么批判它。

　　他承認(rèn)GPT-4是很強(qiáng)大，但是風(fēng)險(xiǎn)也是眾所周知。如果OpenAI缺乏透明度，并且拒絕公開模型，不如直接關(guān)停。

　　強(qiáng)大作者陣容

　　微軟這篇長達(dá)154頁的論文背后有著強(qiáng)大的作者陣容。

　　其中就包括：微軟雷德蒙德研究院首席研究員、2015年斯隆獎(jiǎng)得主Sébastien Bubeck、2023新視野數(shù)學(xué)獎(jiǎng)得主 Ronen Eldan、2020斯隆研究獎(jiǎng)得主Yin Tat Lee、2023新晉斯隆研究獎(jiǎng)得主李遠(yuǎn)志。