殺瘋了!地表最強模型GPT-4o登場,速度提升200%、價格便宜50%,或將顛覆實時翻譯等行業

殺瘋了!地表最強模型GPT-4o登場,速度提升200%、價格便宜50%,或將顛覆實時翻譯等行業
2024年05月14日 07:00 市場資訊

專題:OpenAI 發布最新旗艦模型GPT-4o 完全免費 語音功能震撼登場

  來源:鈦媒體AGI

  15日谷歌Google I/O開發者大會公布 AI 產品24小時前夕,OpenAI成功搶奪了谷歌風頭。

  北京時間5月14日凌晨1點,在26分鐘春季ChatGPT發布會上,美國OpenAI公司推出可實時進行音頻、視覺和文本推理的全新旗艦AI模型GPT-4o,并將推出PC桌面版ChatGPT。

  OpenAI首席技術官米拉·穆拉蒂 (Mira Murati)表示,在API使用方面,相比去年11月發布的GPT-4-turbo,GPT-4o價格降低一半(50%),速度提升兩倍(200%)。GPT-4o的語音和視頻輸入功能將在未來幾周內推出。

  需要指出的是,GPT-4o就是之前在LMSys競賽中測試的一個版本,當時名為“im-also-a-good-gpt2-chatbot”,性能遠超GPT-4 Turbo、GPT-4、Gemini等模型,再次刷新業界水平。

  OpenAI CEO奧爾特曼(Sam Altman)發實時推文表示,新的GPT-4o模型是OpenAI有史以來最好的模型,它很智能,速度很快,它是原生多模態,并且它可供所有 ChatGPT 用戶使用,無論是免費版本還是付費GPT-4版。“這對我們的使命很重要,我們希望將出色的 AI 工具交到每個人手中。”

  OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)發GPT-4o介紹視頻中表示,這是OpenAI朝著更自然的人機交互(甚至人機-計算機交互)形式邁出的重要一步。

  發布之后,網友:它是不是完全可以替盲人看世界了?為外語行業默哀。

  僅僅26分鐘,打響了5月全球AI“軍備競賽”。同時,GPT-4o的發布,或將顛覆外語、實時翻譯、音視頻剪輯等眾多行業。

  ChatGPT狂飆530天,OpenAI持續發力通用大模型

  隨著2022年底 AI 聊天機器人ChatGPT風靡全球,掀起新一輪AIGC浪潮。過去530天里,研發ChatGPT背后的OpenAI公司身處聚光燈下,并迅速成長為860億美金估值的 AI 獨角獸。

  英偉達CEO黃仁勛曾表示,ChatGPT的出現是 AI 的“iPhone時刻”。

  2023年3月,OpenAI推出多模態大模型GPT-4,不僅理解能力、可靠性和長文本技術能力全面增強,且具備圖像處理。而且在專業基準測試中,GPT-4表現近似于人類的水平,如模擬律師考試得分能排到前10%左右,擊敗90%的人類。

  隨后,OpenAI升級ChatGPT付費,每月達20美元;5月,OpenAI陸續推出iOS、安卓版ChatGPT應用,下載量已突破1.1 億次,移動端應用收入近3000萬美元;8月,企業版ChatGPT發布,性能比標準GPT-4快兩倍。

  2023年11月,OpenAI發布最強模型GPT-4 Turbo,提供強大上下文理解能力,支持12.8萬個token,并且公布自定義大模型的GPTs、GPT Store等眾多產品。然而,僅僅兩周后,OpenAI突發高層“大地震”,奧爾特曼遭遇“烏龍”式罷免,五天后最終得以重掌公司大權,并組建董事會。112天后,OpenAI董事會放心表態:對Sam Altman和Greg Brockman繼續領導OpenAI充滿信心。

  據公開數據顯示,整個2023年,在奧爾特曼帶領下,OpenAI年化收入已經超過20億美元,同比增長4500%以上,躋身于歷史增長最快的科技公司之列。

  進入2024年,OpenAI持續“狂飆”:

  • 2月,OpenAI發布首個AI視頻大模型Sora,逼真的影視效果引爆了整個視頻和電影行業;

  • 3月,馬斯克(Elon Musk)狀告OpenAI,使奧爾特曼創始團隊“反擊”;

  • 4月,ChatGPT全面免費注冊開放,ChatGPT可以編輯DALL·E圖像,新版GPT-4 Turbo向 ChatGPT 付費用戶開放,ChatGPT Plus 用戶實現記憶功能,以及OpenAI獲得黃仁勛親手交付的世界上首臺英偉達DGX H200。

  此次發布會之前,關于OpenAI 新品傳聞甚囂塵上,不僅包括性能超級強大的GPT-5,而且還傳有對標谷歌的 AI 搜索引擎產品,以及與蘋果合作研發的 AI 語音生成產品等,引發眾多關注。

  然而,奧爾特曼發推文稱,此次公布的不是GPT-5,也不是 AI 搜索引擎,而是開發的一些“我們認為人們會喜歡的新東西”。

  如今,目前全球最強的 AI 大模型GPT-4o登場。

  米拉·穆拉蒂透露,目前有1億多用戶使用ChatGPT創造工作、學習,有100多萬開發者在GPTs上創造新的工具。

  OpenAI表示,GPT-4o(“o”代表“omni”)是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。

  GPT-4o可以在短至 232 毫秒的時間內響應音頻輸入,平均為 320 毫秒,與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯著提高,同時 API 的速度也更快,成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

  具體來說,GPT-4o主要特色分為四部分:模型能力、基準測試、模型安全性和局限性,以及模型何時可用。

  其中,模型能力上,在GPT-4o之前,ChatGPT語音模式對話的平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。而當時,為了解決語音模式問題,就形成了三個獨立模型組成的管道,但OpenAI團隊發現,這個過程當中的主要智能來源GPT-4丟失了大量音調、噪音、情感等信息。如今借助 GPT-4o,OpenAI跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網絡處理。

  OpenAI也舉出多個例子,整體來說其具有更高的連貫性、精準度,以及更快的反饋速度。

  傳統基準測試層面,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上均處于高位。在5次MMLU(常識問題) 上,GPT-4o創下了87.2%的新高分,遠超谷歌Gemini Pro 1.5、Ultra 1.0,以及自己的GPT-4T和GPT-4等。

  而在語言標記化上,GPT-4o在20種語言中,實現新分詞器跨不同語系壓縮,壓縮規模超過50%。

  模型安全性和局限性上,GPT-4o 通過過濾訓練數據和通過訓練后細化模型行為等技術,在跨模式設計中內置了安全性。以及創建了新的安全系統,為語音輸出提供防護。根據對網絡安全、CBRN、說服力和模型自主性的評估表明,GPT-4o 在這些類別中的任何類別中的得分都不高于中等風險,而且團隊繼續降低發現的新風險。

  那么,何時可用GPT-4o?主要有四個時間點:

  • GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中推出。

  • 在免費版中提供 GPT-4o,并為 Plus 用戶提供高達 5 倍的消息限制。

  • 在未來幾周內在 ChatGPT Plus 中推出帶有 GPT-4o 的 Voice Mode 的新版本。

  • 開發者現在也可以通過 API 訪問 GPT-4o 作為文本和視覺模型。計劃在未來幾周內在 API 中向小部分測試者推出對 GPT-4o 新音頻和視頻功能的支持。

  此外,OpenAI今天還宣布,免費向所有用戶開放其 GPT 商店,包括創建自定義 GPT 的能力,以及即將推出ChatGPT桌面版本。

  OpenAI強調,GPT-4o是OpenAI突破深度學習界限的最新舉措,也是朝著實用性方向發展的重要一步。

  從通用走向聚焦,下一步大模型重塑谷歌搜索引擎?

  發布會召開前夕,360公司董事長周鴻祎就表示,以ChatGPT為代表的大模型在完全沒有突破AGI(通用人工智能)能力情況下情況比較尷尬,目前能力在很多場景下無法給用戶滿意的答案,所以反而導致其在產品場景方面好像什么都能干,實際上很多事都干不了。同時,以perplexity為代表的AI搜索恰恰是“反其道而行之”,以搜索為場景,用大模型來重塑搜索的體驗。

  周鴻祎強調,大模型未來需要“場景的搜索”和“聚焦”,通過專用大模型可解決用戶痛點或剛需,這存在巨大機遇,在GPT強大能力下重新定義場景,并找新產品出路,這或許是大模型發展的長期、正確方向。

  實際上,OpenAI目前面臨著流量增長乏力的局面。

  自去年ChatGPT推出后,在2023年5月達到流量峰值,網絡訪問量達到18億次,但之后流量出現下滑情況。2024年3月,ChatGPT的訪問量依然穩定在了18億次,不再有明顯增長。

  如今,OpenAI已聚焦到音視頻、終端和搜索場景。此次現場環境和演示當中,OpenAI重點突出了端側模型和代碼生成能力等場景化應用。

  值得一提的是,在此之前,前加拿大魁北克省人工智能研究中心(Mila)研究員、麻省理工學院講師Lior S也在社交平臺X上爆料稱:OpenAI最新的 SSL證書日志顯示,OpenAI已經創建了search.chatgpt.com子域名。

  “OpenAI即將追趕谷歌搜索,這可能是谷歌有史以來面臨的最大的威脅。”Lior S說。

  隨著5月14日谷歌舉行I/O開發者大會,因此,一旦未來ChatGPT Search AI搜索產品發布,或將會沖擊到谷歌搜索業務——如今市場占有率高達90%。

  周鴻祎認為,未來OpenAI一定會誕生 AI 搜索類型的產品。

  截至目前,OpenAI 方面對此拒絕置評。

  早前奧爾特曼稱,未來的AI發展不應是一場數據和算力的軍備競賽,真正的突破需要在算法效率、芯片性能、能源供給等方面取得根本性進展。OpenAI期待在算法上實現重大創新,以提高模型的運行效率。他透露,OpenAI計劃在2024年夏天推出更先進的GPT-5模型。

  針對中國不斷追趕OpenAI技術更迭趨勢,5月13日,創新工場董事長兼CEO、零一萬物CEO李開復向鈦媒體App表示,零一萬物的新模型Yi-XLarge MoE已訓練一半,之后會朝著美國大模型繼續進步。

  “我們不能保證一定趕上它(美國模型)、超過它,或者gap有多少,但是我們用適合我們的方法快速推進,既然我們不能用10萬張GPU來訓練,我們就會尋找別的方式,依然能做出非常好的效果。”李開復表示。

  科大訊飛董事長劉慶峰曾透露,目前中美大模型差距在一年至1.5年左右。

  奧爾特曼:預見一個激動人心的未來,我對此感到自豪

  值得注意的是,在發布會結束后,奧爾特曼發布了一條博客,來闡述他對GPT-4o的看法。

  他認為,這是用最低的價格甚至是免費,將最好的模型提供給世界上所有人,同時達到與人類相似的響應速度和表達能力,標志著一個重大的轉變,并預見到一個激動人心的未來。

  以下是全文內容:

  首先,我們的使命是向人們免費(或以非常優惠的價格)提供功能強大的AI工具。

  我為我們能在ChatGPT中免費提供世界上最先進的模型感到非常自豪,這一切都沒有廣告或其他干擾。

  最初,OpenAI的設想是開發AI技術,并利用它為全球帶來益處。然而,現實是我們開發了AI技術,而其他人則利用這些技術創造了令全世界受益的杰出成果。作為一家企業,我們有很多服務是需要收費的,這也支持我們向全球數十億用戶提供免費的頂尖AI服務。

  其次,新推出的語音(及視頻)模式是我使用過的最佳計算界面。它給人一種電影中AI的感覺,讓人不禁驚嘆這竟是真的。達到與人類相似的響應速度和表達能力,標志著一個重大的轉變。

  最初的ChatGPT已經展示了語言界面的潛力;而這一新技術則在體驗上有了質的飛躍。它反應迅速、智能、有趣、自然且實用。以前,我與計算機對話從未感覺如此自然;但現在,我終于有了這種感覺。

  隨著我們逐步增加個性化選項、獲取個人信息的權限、代表用戶執行操作的能力等功能,我真的可以預見到一個激動人心的未來:我們能夠利用計算機完成以往無法想象的更多事務。

  最后,非常感謝我們團隊的每一位成員,是他們的辛勤工作讓這一切成為可能!

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:尉旖涵

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 04-29 瑞迪智驅 301596 25.92
  • 04-25 歐萊新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 燦芯股份 688691 19.86
  • 03-27 無錫鼎邦 872931 6.2
  • 新浪首頁 語音播報 相關新聞 返回頂部