專題:OpenAI 發布最新旗艦模型GPT-4o 完全免費 語音功能震撼登場
來源:鈦媒體AGI
15日谷歌Google I/O開發者大會公布 AI 產品24小時前夕,OpenAI成功搶奪了谷歌風頭。
北京時間5月14日凌晨1點,在26分鐘春季ChatGPT發布會上,美國OpenAI公司推出可實時進行音頻、視覺和文本推理的全新旗艦AI模型GPT-4o,并將推出PC桌面版ChatGPT。
OpenAI首席技術官米拉·穆拉蒂 (Mira Murati)表示,在API使用方面,相比去年11月發布的GPT-4-turbo,GPT-4o價格降低一半(50%),速度提升兩倍(200%)。GPT-4o的語音和視頻輸入功能將在未來幾周內推出。
需要指出的是,GPT-4o就是之前在LMSys競賽中測試的一個版本,當時名為“im-also-a-good-gpt2-chatbot”,性能遠超GPT-4 Turbo、GPT-4、Gemini等模型,再次刷新業界水平。
OpenAI CEO奧爾特曼(Sam Altman)發實時推文表示,新的GPT-4o模型是OpenAI有史以來最好的模型,它很智能,速度很快,它是原生多模態,并且它可供所有 ChatGPT 用戶使用,無論是免費版本還是付費GPT-4版。“這對我們的使命很重要,我們希望將出色的 AI 工具交到每個人手中。”
OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)發GPT-4o介紹視頻中表示,這是OpenAI朝著更自然的人機交互(甚至人機-計算機交互)形式邁出的重要一步。
發布之后,網友:它是不是完全可以替盲人看世界了?為外語行業默哀。
僅僅26分鐘,打響了5月全球AI“軍備競賽”。同時,GPT-4o的發布,或將顛覆外語、實時翻譯、音視頻剪輯等眾多行業。
ChatGPT狂飆530天,OpenAI持續發力通用大模型
隨著2022年底 AI 聊天機器人ChatGPT風靡全球,掀起新一輪AIGC浪潮。過去530天里,研發ChatGPT背后的OpenAI公司身處聚光燈下,并迅速成長為860億美金估值的 AI 獨角獸。
英偉達CEO黃仁勛曾表示,ChatGPT的出現是 AI 的“iPhone時刻”。
2023年3月,OpenAI推出多模態大模型GPT-4,不僅理解能力、可靠性和長文本技術能力全面增強,且具備圖像處理。而且在專業基準測試中,GPT-4表現近似于人類的水平,如模擬律師考試得分能排到前10%左右,擊敗90%的人類。
隨后,OpenAI升級ChatGPT付費,每月達20美元;5月,OpenAI陸續推出iOS、安卓版ChatGPT應用,下載量已突破1.1 億次,移動端應用收入近3000萬美元;8月,企業版ChatGPT發布,性能比標準GPT-4快兩倍。
2023年11月,OpenAI發布最強模型GPT-4 Turbo,提供強大上下文理解能力,支持12.8萬個token,并且公布自定義大模型的GPTs、GPT Store等眾多產品。然而,僅僅兩周后,OpenAI突發高層“大地震”,奧爾特曼遭遇“烏龍”式罷免,五天后最終得以重掌公司大權,并組建董事會。112天后,OpenAI董事會放心表態:對Sam Altman和Greg Brockman繼續領導OpenAI充滿信心。
據公開數據顯示,整個2023年,在奧爾特曼帶領下,OpenAI年化收入已經超過20億美元,同比增長4500%以上,躋身于歷史增長最快的科技公司之列。
進入2024年,OpenAI持續“狂飆”:
-
2月,OpenAI發布首個AI視頻大模型Sora,逼真的影視效果引爆了整個視頻和電影行業;
-
3月,馬斯克(Elon Musk)狀告OpenAI,使奧爾特曼創始團隊“反擊”;
-
4月,ChatGPT全面免費注冊開放,ChatGPT可以編輯DALL·E圖像,新版GPT-4 Turbo向 ChatGPT 付費用戶開放,ChatGPT Plus 用戶實現記憶功能,以及OpenAI獲得黃仁勛親手交付的世界上首臺英偉達DGX H200。
此次發布會之前,關于OpenAI 新品傳聞甚囂塵上,不僅包括性能超級強大的GPT-5,而且還傳有對標谷歌的 AI 搜索引擎產品,以及與蘋果合作研發的 AI 語音生成產品等,引發眾多關注。
然而,奧爾特曼發推文稱,此次公布的不是GPT-5,也不是 AI 搜索引擎,而是開發的一些“我們認為人們會喜歡的新東西”。
如今,目前全球最強的 AI 大模型GPT-4o登場。
米拉·穆拉蒂透露,目前有1億多用戶使用ChatGPT創造工作、學習,有100多萬開發者在GPTs上創造新的工具。
OpenAI表示,GPT-4o(“o”代表“omni”)是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。
GPT-4o可以在短至 232 毫秒的時間內響應音頻輸入,平均為 320 毫秒,與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯著提高,同時 API 的速度也更快,成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。
具體來說,GPT-4o主要特色分為四部分:模型能力、基準測試、模型安全性和局限性,以及模型何時可用。
其中,模型能力上,在GPT-4o之前,ChatGPT語音模式對話的平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。而當時,為了解決語音模式問題,就形成了三個獨立模型組成的管道,但OpenAI團隊發現,這個過程當中的主要智能來源GPT-4丟失了大量音調、噪音、情感等信息。如今借助 GPT-4o,OpenAI跨文本、視覺和音頻端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網絡處理。
OpenAI也舉出多個例子,整體來說其具有更高的連貫性、精準度,以及更快的反饋速度。
傳統基準測試層面,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上均處于高位。在5次MMLU(常識問題) 上,GPT-4o創下了87.2%的新高分,遠超谷歌Gemini Pro 1.5、Ultra 1.0,以及自己的GPT-4T和GPT-4等。
而在語言標記化上,GPT-4o在20種語言中,實現新分詞器跨不同語系壓縮,壓縮規模超過50%。
模型安全性和局限性上,GPT-4o 通過過濾訓練數據和通過訓練后細化模型行為等技術,在跨模式設計中內置了安全性。以及創建了新的安全系統,為語音輸出提供防護。根據對網絡安全、CBRN、說服力和模型自主性的評估表明,GPT-4o 在這些類別中的任何類別中的得分都不高于中等風險,而且團隊繼續降低發現的新風險。
那么,何時可用GPT-4o?主要有四個時間點:
-
GPT-4o 的文本和圖像功能今天開始在 ChatGPT 中推出。
-
在免費版中提供 GPT-4o,并為 Plus 用戶提供高達 5 倍的消息限制。
-
在未來幾周內在 ChatGPT Plus 中推出帶有 GPT-4o 的 Voice Mode 的新版本。
-
開發者現在也可以通過 API 訪問 GPT-4o 作為文本和視覺模型。計劃在未來幾周內在 API 中向小部分測試者推出對 GPT-4o 新音頻和視頻功能的支持。
此外,OpenAI今天還宣布,免費向所有用戶開放其 GPT 商店,包括創建自定義 GPT 的能力,以及即將推出ChatGPT桌面版本。
OpenAI強調,GPT-4o是OpenAI突破深度學習界限的最新舉措,也是朝著實用性方向發展的重要一步。
從通用走向聚焦,下一步大模型重塑谷歌搜索引擎?
發布會召開前夕,360公司董事長周鴻祎就表示,以ChatGPT為代表的大模型在完全沒有突破AGI(通用人工智能)能力情況下情況比較尷尬,目前能力在很多場景下無法給用戶滿意的答案,所以反而導致其在產品場景方面好像什么都能干,實際上很多事都干不了。同時,以perplexity為代表的AI搜索恰恰是“反其道而行之”,以搜索為場景,用大模型來重塑搜索的體驗。
周鴻祎強調,大模型未來需要“場景的搜索”和“聚焦”,通過專用大模型可解決用戶痛點或剛需,這存在巨大機遇,在GPT強大能力下重新定義場景,并找新產品出路,這或許是大模型發展的長期、正確方向。
實際上,OpenAI目前面臨著流量增長乏力的局面。
自去年ChatGPT推出后,在2023年5月達到流量峰值,網絡訪問量達到18億次,但之后流量出現下滑情況。2024年3月,ChatGPT的訪問量依然穩定在了18億次,不再有明顯增長。
如今,OpenAI已聚焦到音視頻、終端和搜索場景。此次現場環境和演示當中,OpenAI重點突出了端側模型和代碼生成能力等場景化應用。
值得一提的是,在此之前,前加拿大魁北克省人工智能研究中心(Mila)研究員、麻省理工學院講師Lior S也在社交平臺X上爆料稱:OpenAI最新的 SSL證書日志顯示,OpenAI已經創建了search.chatgpt.com子域名。
“OpenAI即將追趕谷歌搜索,這可能是谷歌有史以來面臨的最大的威脅。”Lior S說。
隨著5月14日谷歌舉行I/O開發者大會,因此,一旦未來ChatGPT Search AI搜索產品發布,或將會沖擊到谷歌搜索業務——如今市場占有率高達90%。
周鴻祎認為,未來OpenAI一定會誕生 AI 搜索類型的產品。
截至目前,OpenAI 方面對此拒絕置評。
早前奧爾特曼稱,未來的AI發展不應是一場數據和算力的軍備競賽,真正的突破需要在算法效率、芯片性能、能源供給等方面取得根本性進展。OpenAI期待在算法上實現重大創新,以提高模型的運行效率。他透露,OpenAI計劃在2024年夏天推出更先進的GPT-5模型。
針對中國不斷追趕OpenAI技術更迭趨勢,5月13日,創新工場董事長兼CEO、零一萬物CEO李開復向鈦媒體App表示,零一萬物的新模型Yi-XLarge MoE已訓練一半,之后會朝著美國大模型繼續進步。
“我們不能保證一定趕上它(美國模型)、超過它,或者gap有多少,但是我們用適合我們的方法快速推進,既然我們不能用10萬張GPU來訓練,我們就會尋找別的方式,依然能做出非常好的效果。”李開復表示。
科大訊飛董事長劉慶峰曾透露,目前中美大模型差距在一年至1.5年左右。
奧爾特曼:預見一個激動人心的未來,我對此感到自豪
值得注意的是,在發布會結束后,奧爾特曼發布了一條博客,來闡述他對GPT-4o的看法。
他認為,這是用最低的價格甚至是免費,將最好的模型提供給世界上所有人,同時達到與人類相似的響應速度和表達能力,標志著一個重大的轉變,并預見到一個激動人心的未來。
以下是全文內容:
首先,我們的使命是向人們免費(或以非常優惠的價格)提供功能強大的AI工具。
我為我們能在ChatGPT中免費提供世界上最先進的模型感到非常自豪,這一切都沒有廣告或其他干擾。
最初,OpenAI的設想是開發AI技術,并利用它為全球帶來益處。然而,現實是我們開發了AI技術,而其他人則利用這些技術創造了令全世界受益的杰出成果。作為一家企業,我們有很多服務是需要收費的,這也支持我們向全球數十億用戶提供免費的頂尖AI服務。
其次,新推出的語音(及視頻)模式是我使用過的最佳計算界面。它給人一種電影中AI的感覺,讓人不禁驚嘆這竟是真的。達到與人類相似的響應速度和表達能力,標志著一個重大的轉變。
最初的ChatGPT已經展示了語言界面的潛力;而這一新技術則在體驗上有了質的飛躍。它反應迅速、智能、有趣、自然且實用。以前,我與計算機對話從未感覺如此自然;但現在,我終于有了這種感覺。
隨著我們逐步增加個性化選項、獲取個人信息的權限、代表用戶執行操作的能力等功能,我真的可以預見到一個激動人心的未來:我們能夠利用計算機完成以往無法想象的更多事務。
最后,非常感謝我們團隊的每一位成員,是他們的辛勤工作讓這一切成為可能!
責任編輯:尉旖涵
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)