看了今天OpenAI的新品發(fā)布直播,我感覺被奧特曼耍了

看了今天OpenAI的新品發(fā)布直播,我感覺被奧特曼耍了
2024年12月06日 04:25 市場資訊

專題:市場交易或仍圍繞政策預(yù)期展開 行情演繹重要節(jié)點(diǎn)將至

  來源:知危

  大家好,這里是知危編輯部,看完剛剛結(jié)束的 OpenAI 新品發(fā)布直播,我們的心里產(chǎn)生了巨大的疑惑:

  就這?就這?就這???

  昨天,OpenAI 的 CEO 奧特曼高調(diào)宣布了 OpenAI 將會(huì)從今天開始開啟一個(gè)為期 12 天的開放日活動(dòng),宣稱接下來每個(gè)工作日都會(huì)有一次直播,內(nèi)容會(huì)包括新品發(fā)布或演示、一些大型活動(dòng)和一些 “ 圣誕禮物 ”。

  自打 9 月份發(fā)布了 o1 模型之后, OpenAI 憋了快一個(gè)季度沒有新的大動(dòng)作了,本來以為是要 “ 連開七天春晚 ” 的節(jié)奏,編輯部已經(jīng)做好 “ 連續(xù)熬夜 12 天挑戰(zhàn) ” 的準(zhǔn)備。

  結(jié)果,剛剛結(jié)束的本輪活動(dòng)第一場直播,15 分鐘就草草收場了,可以說是OpenAI 過往直播發(fā)布會(huì)里最無聊的一集,有一種被奧特曼耍了的感覺。。。

  這就是 12 天超長活動(dòng)的強(qiáng)度嗎?也太低了吧???

  好了,發(fā)完牢騷,還是跟大家介紹一下這場發(fā)布會(huì)的內(nèi)容,雖然短,但也還是有一定有效信息。

  首先,o1 完全體模型正式版上線,同時(shí)還推出了一個(gè) o1 Pro 模型并且相應(yīng)推出了 ChatGPT Pro 訂閱以及高級語音功能,相較于之前 Plus 訂閱 20 美元每月的價(jià)格,Pro 訂閱高達(dá) 200 美元每月,不過可以不限次使用 o1 Pro 模型和高級語音功能,也算是量大管飽了。

  而在模型效果上,官方紙面數(shù)據(jù)其實(shí)并沒有特別大的飛躍性提升。。。

  為什么這么說呢,因?yàn)楦鶕?jù)官方給出的跑分?jǐn)?shù)據(jù),o1 正式版模型的能力僅在數(shù)學(xué)和編程方面有較大的提升,但在博士級別問題的提升上非常小,新推出的 o1 Pro 版本也僅在各方面比 o1 正式版模型提高了一點(diǎn)點(diǎn)。

  要知道,o1 模型發(fā)布時(shí)主打的就是能在博士級別的回答中有出色表現(xiàn),結(jié)果正式版和 Pro 版在這方面相比預(yù)覽版基本沒有什么提升,也是有些讓人期望落空的。

  知危編輯部之前找過清華、北大、南京大學(xué)的三個(gè)博士測試評價(jià)過 o1 預(yù)覽版模型,三位博士表示 o1 確實(shí)在思維和知識(shí)儲(chǔ)備上達(dá)到了博士的水準(zhǔn),但無法對課題進(jìn)行探索和提供更深的研究思路,所以并沒有真正達(dá)到 “ 做學(xué)術(shù) ” 的水平。

  現(xiàn)在是半夜我們沒辦法聯(lián)系之前的博士進(jìn)行測試,不過從官方公布的僅僅 5 分的提高上來看,估計(jì)效果體感應(yīng)該不會(huì)有什么較大區(qū)別,數(shù)據(jù)是騙不了人的。

  不過,雖然模型的回答能力提升不多,但是模型的體驗(yàn)還是提升很大的,o1 正式版模型的重大錯(cuò)誤犯錯(cuò)率比 o1 預(yù)覽模板少了約 34%,同時(shí)回答速度提高了約 50% 。

  直播現(xiàn)場對比提問了 “ 列出二世紀(jì)的羅馬皇帝,包括他們的時(shí)期和成就 ” 這個(gè)問題,o1 正式版給出回答用時(shí)僅有 14 秒,比 o1 預(yù)覽版的 33 秒快了近 20 秒,體感差距還是很大的。

  而在回答的可靠性上,為了更明顯的對比,OpenAI 采用了 “ 4/4 可靠性 ” 測試,具體來講就是:僅當(dāng)模型在四次問答中四次都能夠正確回答問題,才被認(rèn)為是解決了該問題。

   “ 4/4 可靠性 ” 測試的評分上來看,o1 正式版在各個(gè)領(lǐng)域都比預(yù)覽版有顯著的可靠性提高,同時(shí) Pro 版比正式版也有較大提高。

  除了體驗(yàn)上的提升,還有交互上的提升,o1 正式版模型現(xiàn)在支持多模態(tài)輸入了,你可以通過圖+文字的形式向模型進(jìn)行提問。

  在直播現(xiàn)場,OpenAI 團(tuán)隊(duì)畫了一張 “ 太空數(shù)據(jù)中心 ” 草圖,并讓 o1 模型回答圖中設(shè)施給 GPU 散熱的散熱器面積理論上應(yīng)該需要多大,并且回答是時(shí)要考慮到 “ 如何處理太陽和深空的影響?” 以及 “ 熱力學(xué)第一定律在其中如何發(fā)揮作用?” 這兩個(gè)問題。

測試草圖測試草圖

  o1 僅用 10 秒就回答了這個(gè)問題,他非常聰明的捕捉到了圖中的 1GW 的輸入功率元素,這是一個(gè)關(guān)鍵信息,同時(shí)指出了系統(tǒng)只能通過熱輻射散熱。

  與此同時(shí),工作人員在提問時(shí)故意規(guī)避了一個(gè)信息,那就是整個(gè)系統(tǒng)的正常工作溫度應(yīng)該是多少,但 o1 模型自己聰明的定義了系統(tǒng)應(yīng)該在 300K 也就是 27 攝氏度的環(huán)境下工作,進(jìn)而開始估算散熱板所需要的面積。

  圖中回答的大致翻譯:所需的散熱器面積對散熱器的平衡溫度高度敏感。較低的散熱器溫度意味著每單位面積的輻射量減少,因此需要更大的面積。而較高的散熱器溫度則可以減少所需面積,但可能增加工程復(fù)雜性(因?yàn)樾枰褂媚軌虺惺芨邷囟惹胰员3指咻椛渎实牟牧希?/p>

  為了說明問題,我們選擇一個(gè)相對適中的散熱器溫度,例如 T = 300 K(約27°C),這是電子設(shè)備或冷卻循環(huán)系統(tǒng)溫度的一個(gè)合理上限。這將為我們提供一個(gè)基準(zhǔn)值。在計(jì)算面積下限時(shí),我們假設(shè)沒有寄生熱負(fù)荷,并且系統(tǒng)處于理想條件。

  (注:如果允許系統(tǒng)運(yùn)行在更高溫度,所需面積會(huì)減少。我們將在 300 K 下進(jìn)行一個(gè)示例計(jì)算,并說明溫度變化如何影響面積需求。)

  整體來說,這次發(fā)布的東西雖然沒有大家期望中的那么好,大家期望的 Sora 正式版、GPT-5、AI 搜索瀏覽器等產(chǎn)品都沒有出現(xiàn),但好在正式版 o1 和 o1 Pro 也勉強(qiáng)說得過去。

  不知都后面剩下的 11 場直播內(nèi)容會(huì)不會(huì)覆蓋到大家期望的東西,搞不好 OpenAI 想壓軸在臨近圣誕節(jié)的時(shí)候給大家來個(gè)圣誕驚喜也沒準(zhǔn)~

  哦,對了還有一件事情漏掉了,那就是因?yàn)?nbsp;o1 Pro 模型的思考深度比 o1 要高,耗時(shí)會(huì)更長,所以為了用戶體驗(yàn),OpenAI 給模型加入了一個(gè)回答進(jìn)度條,這么做可以非常有效的緩解用戶在等待回答時(shí)候的焦慮。

畢竟進(jìn)度條是計(jì)算機(jī)史上最偉大的設(shè)計(jì)之一了,所以 OpenAI 這波啊,可以說是 《 震驚!炸裂!OpenAI 史詩級更新 》 了!
撰文:二筒編輯:大餅

  (轉(zhuǎn)自:知危)

海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

責(zé)任編輯:李桐

博士 直播 散熱器 奧特曼

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財(cái)經(jīng)公眾號
新浪財(cái)經(jīng)公眾號

24小時(shí)滾動(dòng)播報(bào)最新的財(cái)經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時(shí)

  • 12-13 中力股份 603194 --
  • 12-09 博科測試 301598 38.46
  • 12-06 藍(lán)宇股份 301585 23.95
  • 12-02 先鋒精科 688605 11.29
  • 11-29 博苑股份 301617 27.76
  • 新浪首頁 語音播報(bào) 相關(guān)新聞 返回頂部