專題:A股市場震蕩格局將延續(xù) 中長期向上方向保持不變
OpenAI離AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活動”的第12天,OpenAI首席執(zhí)行官薩姆·奧特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,這兩款模型是在今年早些時候推出的o1模型的基礎(chǔ)上開發(fā)的。
OpenAI本次12日的活動第一天官宣了上線正式版o1,所謂滿血o1。活動最后一天又有o3亮相,首尾都由介紹推理模型呼應(yīng),也算是一種精心設(shè)計。
據(jù)介紹,這些模型使用OpenAI所稱的“私人思維鏈”,模型會暫停檢查其內(nèi)部對話,并在響應(yīng)之前提前計劃,你可以稱之為“模擬推理”(SR),即一種超越基本大型語言模型(llm)的人工智能形式。
據(jù)了解,為了避免與英國電信運營商o2發(fā)生潛在的商標(biāo)沖突,該公司將其最新的人工智能“推理”模型命名為“o3”而不是“o2”。
直播中,奧特曼稱o3是“一個非常、非常聰明的模型”。OpenAI的評估結(jié)果也顯示,無論在軟件工程、編寫代碼,還是競賽數(shù)學(xué)、掌握人類博士級別的自然科學(xué)知識能力方面,o3都明顯高出o1一籌。同時測試顯示,o3在OpenAI實現(xiàn)通用人工智能(AGI)這一奮斗目標(biāo)上取得了突破,最高的測試成績達到了類人水平。
根據(jù)OpenAI的說法,o3模型在ARC-AGI基準(zhǔn)上獲得了破紀(jì)錄的分?jǐn)?shù),ARC-AGI基準(zhǔn)是一種視覺推理基準(zhǔn),自2019年創(chuàng)建以來一直保持不敗。在低計算場景中,o3得分為75.7%,而在高計算測試中,它達到了87.5%,與人類在85%閾值下的表現(xiàn)相當(dāng)。
OpenAI還報告說,o3在2024年美國數(shù)學(xué)邀請賽中得分為96.7%,只缺了一道題。該模型在包含研究生水平的生物、物理和化學(xué)問題的GPQA Diamond上也達到了87.7%。在EpochAI的前沿數(shù)學(xué)基準(zhǔn)上,o3解決了25.2%的問題,而其他模型都沒有超過2%。
o3-mini版本包括自適應(yīng)思考時間功能,提供低、中、高處理速度。該公司表示,更高的計算設(shè)置可以產(chǎn)生更好的結(jié)果。OpenAI報告說,在Codeforces基準(zhǔn)測試中,o3-mini的性能超過了它的前身o1。
但測試發(fā)現(xiàn),表現(xiàn)完美的o3在計算投入方面并不那么“美麗”。
ARC-AGI(通用人工智能抽象與推理語料庫)發(fā)起者、Keras(用Python編寫的高級神經(jīng)網(wǎng)絡(luò)API)之父弗朗索瓦·肖萊(Francois Chollet)在o3發(fā)布后公布了一篇測試報告。
報告顯示,o3在高計算量模式下獲得了87.5%的分?jǐn)?shù),在低計算量模式下,性能是o1的3倍。成本方面,低計算量模式下,每個任務(wù)需要花費20美元,而在高計算量模式中每個任務(wù)需要數(shù)千美元。
肖萊表示:“它非常昂貴,但并不只是‘蠻干’——這些能力是全新的領(lǐng)域,需要科學(xué)界的認(rèn)真關(guān)注。”
據(jù)悉,推理模型作為人工智能的核心技術(shù)之一,具備強大的數(shù)據(jù)處理和分析能力,其應(yīng)用范圍廣泛,幾乎覆蓋了所有與智能化相關(guān)的領(lǐng)域。
雖然o3的測評看上去表現(xiàn)驚艷,但OpenAI應(yīng)該不會很快面向大眾上線這款新的超級推理模型。
據(jù)悉,o3和o3-mini并未正式發(fā)布,安全研究人員目前可以注冊獲取o3-mini的預(yù)覽版,o3預(yù)覽版也將在之后的某個時間推出,OpenAI沒有給出具體時間。在直播的一開始,奧特曼也強調(diào)了此次并不是發(fā)布,只是宣布o(jì)3。他表示,計劃在1月底發(fā)布o(jì)3-mini,然后再發(fā)布o(jì)3。
奧特曼在直播中表示,在OpenAI正式發(fā)布新的推理模型之前,他更希望有一個聯(lián)邦政府的測試框架,指導(dǎo)監(jiān)控和減輕此類模型的風(fēng)險。“應(yīng)該有某種聯(lián)邦測試框架,說明我們最感興趣的是監(jiān)控和緩解危害,類似于這里有一組測試,在你發(fā)布它之前,必須能夠證明這種模型在這些方面是安全的。”
值得一提的是,除了OpenAI,各家AI公司近期也紛紛發(fā)布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代數(shù)學(xué)推理模型k0-math;11月20日,DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預(yù)覽版;11月28日,阿里云通義團隊發(fā)布全新AI推理模型QwQ-32B-Preview。
在當(dāng)?shù)貢r間12月19日,谷歌也發(fā)布首個推理模型Gemini 2.0 Flash Thinking。它使用了類似o1模型的慢思維思考方式,可以深度可視化展示整個思維鏈過程,尤其是在執(zhí)行數(shù)學(xué)、編程等復(fù)雜問題方面。
相比o1,Gemini 2.0 Flash Thinking的最大差別是,讓用戶能看到一步一步推理的過程,更清晰、更透明地了解模型如何得出結(jié)論。它剛亮相就登上了Chatbot Arena大模型評估的榜首。不過,谷歌的這一新模型還處于實驗性階段,只是一個早期版本。
北京商報綜合報道
責(zé)任編輯:丁文武
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)