ChatGPT這么會(huì)聊天，還要朋友干什么

2024-05-14 13:08:00 創(chuàng)事記作者：市界

　　OpenAI又改寫了一次歷史，在今日凌晨上線了一款能接受文本、音頻、圖像多模態(tài)輸入與輸出，表達(dá)自然流暢、并能讀懂情緒起伏的智能助手GPT-4o。更重要的是，它可被放入桌面和手機(jī)端，并完全免費(fèi)。壓力被急劇轉(zhuǎn)移到了谷歌、蘋果身上；未來幾天，“科技春晚”還將輪番上演。

　　作者 |董溫淑

　　來源 | 市界

　　最近一周，科技行業(yè)熱鬧非凡，大型“臉對(duì)臉”開打的“科技春晚”，更將輪番上演。

　　5月14日凌晨，OpenAI 2024年春季發(fā)布會(huì)上線。如今這家巨頭的每次動(dòng)向，都存在再度“顛覆”一個(gè)行業(yè)的可能，既讓AI創(chuàng)業(yè)者們翹首以盼，更讓大家緊張萬分。

　　雖然這場(chǎng)OpenAI的發(fā)布會(huì)僅持續(xù)了28分鐘，業(yè)內(nèi)也早有劇透——不會(huì)有傳說中的ChatGPT 5，也不會(huì)直接對(duì)標(biāo)谷歌做AI搜索；但發(fā)布會(huì)的效果，仍然震驚四座。

　　此次OpenAI推出的是一款桌面版ChatGPT，該模型被稱為GPT-4o。其中“o”代表著“omni”（全能）。在演示中，這一“全模態(tài)”模型不僅能接受文本、音頻、圖像的任意組合輸出，并可跨領(lǐng)域進(jìn)行推理與展示——最重要的是，其反應(yīng)速度最短達(dá)到了232毫秒，完全可做到與人類在正常對(duì)話中同頻。

　　演示中，GPT-4o像個(gè)真實(shí)的人類一樣，可以被打斷，也可做到語態(tài)聯(lián)想。當(dāng)它被裝入手機(jī)時(shí)，能通過喘氣聽懂用戶的嘆息、疲憊，使用體驗(yàn)易用自然、功能強(qiáng)大。

　　OpenAI同步宣布了“獲客”大殺器：GPT-4o可以被安裝至桌面和手機(jī)端，并向所有人免費(fèi)開放，API定價(jià)只有GPT-4 Turbo的一半，速度達(dá)到GPT-4 Turbo的2倍，付費(fèi)的ChatGPT Plus用戶將獲得5倍調(diào)用額度。

　　壓力被急劇轉(zhuǎn)移到谷歌、蘋果等巨頭身上。北京時(shí)間5月15日凌晨，谷歌也將上線“I/O大會(huì)”，據(jù)傳谷歌將在會(huì)上公布大模型最新進(jìn)展，并將發(fā)布類似GPT-4o，在Gemini加持下的、名為“Pixie”的個(gè)人數(shù)字助理。

　　本月21日，微軟也將召開“Build開發(fā)者大會(huì)”，市場(chǎng)猜測(cè)其大概率會(huì)將OpenAI最新能力集成到自家產(chǎn)品線中。

　　另據(jù)外媒報(bào)道，蘋果在此次發(fā)布會(huì)前，已與OpenAI達(dá)成合作。在6月的蘋果“WWDC大會(huì)”上，ChatGPT會(huì)不會(huì)被塞入iPhone之中，以取代“招人恨”的Siri，也非常值得期待。

　　28分鐘，干翻所有語音助手

　　一場(chǎng)大范圍預(yù)熱，將OpenAI發(fā)布會(huì)的懸念提前拉滿。

　　發(fā)布會(huì)前，OpenAI創(chuàng)始人、CEO山姆·奧特曼先早早否定了對(duì)標(biāo)谷歌，上線AI搜索的傳聞。他稱，“（新功能）對(duì)我來說就像魔法一樣”。OpenAI語音AGI研究領(lǐng)導(dǎo)Alexis Conneau更直接將自己的社交媒體主頁背景，改成了一張電影《Her》中的劇照——這是一部講述人與AI助手“薩曼莎”相戀的科幻電影。

　　外界甚至為奧特曼編排出了一個(gè)與AI助手相愛的浪漫故事。發(fā)布會(huì)結(jié)束后，山姆也順?biāo)浦鄣兀谧约旱腦賬號(hào)上，只發(fā)表了一個(gè)單詞——“Her”。

　　▲

　　不過當(dāng)看過OpenAI的最新產(chǎn)品后，觀眾們驚呼，《Her》中的劇情真的進(jìn)入了現(xiàn)實(shí)。

　　發(fā)布會(huì)上展示的GPT-4o，仿佛是一個(gè)真實(shí)的“朋友”坐在身邊。它反應(yīng)迅速，語調(diào)流暢自然，情緒飽滿，會(huì)跟隨著你的情緒興奮起來，也能根據(jù)上下文給出豐富的對(duì)話細(xì)節(jié)，揣摩對(duì)話者的情緒。

　　例如，當(dāng)OpenAI的研發(fā)負(fù)責(zé)人Mark Chen上臺(tái)時(shí)，他對(duì)著GPT-4o說：“我站在臺(tái)上有點(diǎn)緊張，該怎么辦？”GPT-4o回答：“你太棒了，深呼吸一下吧，記得你可是個(gè)專家。”Mark Chen隨之大聲喘氣，問GPT-4o接下來還能給些什么建議，對(duì)方回答：“放松點(diǎn)Mark，呼吸得慢一點(diǎn)，你又不是吸塵器。”

　　▲

　　接下來，GPT-4o被要求給大家講個(gè)睡前故事。沒講幾秒，它就被Chen打斷，要求能不能多點(diǎn)情緒和戲劇性。隨即，GPT-4o語調(diào)更加起伏和夸張。Chen又對(duì)其要求：能不能再來點(diǎn)情感，最戲劇化的表達(dá)可以嗎？GPT-4o顯然讀懂了“戲劇化”的含義，隨即拿出了戲劇演員一樣夸張的語調(diào)——有趣的是，當(dāng)GPT-4o又被要求唱歌時(shí)，它甚至自己先嘆了口氣。

　　在此過程中，GPT-4o的反應(yīng)速度也令人深刻。據(jù)計(jì)算，它對(duì)音頻輸入的響應(yīng)時(shí)間最短為232毫秒，平均為320毫秒，這與人類在對(duì)話中的響應(yīng)時(shí)間相似。

　　語音聊天外，GPT-4o還表現(xiàn)出了多模態(tài)理解和輸出能力。它能夠跨聲音、文本和視覺進(jìn)行智能推理，可以就用戶給出的截圖、照片，或含有文本和圖像的文件展開對(duì)話。

　　此外，GPT-4o也能生成任何文本、音頻和圖像的組合。并能在輸出中，識(shí)別人類的感情，根據(jù)感情做出“有情緒的反應(yīng)”。

　　為了快速“獲客”，這樣強(qiáng)大的助手，OpenAI準(zhǔn)備交給用戶免費(fèi)使用，并可在電腦桌面運(yùn)行。據(jù)官方介紹，OpenAI優(yōu)化了用戶界面，用戶只需要關(guān)注如何與ChatGPT協(xié)作。可想而知，這樣一位免費(fèi)的AI助手，可以隨時(shí)陪你聊天、看圖表、寫日程，它將爆發(fā)怎樣的巨量使用場(chǎng)景。

　　打到谷歌、蘋果家門口

　　盡管OpenAI此次沒有亮出GPT-5這樣的大招，從業(yè)界反饋看，其展現(xiàn)出的技術(shù)能力升級(jí)足以令人再度感到震驚。

　　據(jù)騰訊科技報(bào)道，根據(jù)OpenAI官網(wǎng)最新博客文章顯示，在GPT-4o上線之前，使用語音模式與ChatGPT對(duì)話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。為實(shí)現(xiàn)這一點(diǎn)，ChatGPT語音模式是由三個(gè)獨(dú)立的模型組成的流水線：一個(gè)簡(jiǎn)單的模型將音頻轉(zhuǎn)錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個(gè)簡(jiǎn)單的模型將該文本再轉(zhuǎn)換回音頻。

　　在這個(gè)過程中，GPT-4會(huì)丟失很多信息，它不能直接觀察語調(diào)、多個(gè)說話者或背景噪音，也不能輸出笑聲、歌唱或表達(dá)情感。

　　而GPT-4o之所以能表現(xiàn)出更自然、更貼近人類的情感，源于其是單獨(dú)訓(xùn)練的新模型。因此，可以端到端地處理文本、視覺和音頻，這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

　　▲

　　這款被OpenAI能力強(qiáng)大優(yōu)化了的桌面App與手機(jī)端助手，其所打開的想象力，也威脅到了一眾巨頭的蛋糕。例如，許多人最直接的反應(yīng)是：它已經(jīng)達(dá)到了全面“吊打”Siri的水平。

　　有趣的是：據(jù)外媒報(bào)道，發(fā)布會(huì)前一天，蘋果與OpenAI的合作已秘密達(dá)成。雖然合作方式尚不可知，但不少人猜測(cè)：OpenAI的技術(shù)將會(huì)在蘋果新品中集成亮相。

　　另外多模態(tài)人工智能助手的賽道里，最大的玩家本來還站著谷歌。

　　2023年12月，谷歌發(fā)布了Gemini模型1.0版本，開始便定義其為“原生多模態(tài)大模型”，希望打通語言、聽力、視覺信息的輸入輸出能力。2024年2月，Gemini上新了1.5版本。

　　5月15日，OpenAI發(fā)布會(huì)一天后，谷歌“I/O大會(huì)”即將舉辦，Gemini的更新發(fā)布本是關(guān)注重點(diǎn)。但OpenAI爆冷發(fā)布語音助手，無疑會(huì)將關(guān)注度從Gemini身上奪走不少。

　　不過這種在發(fā)布會(huì)前被搶風(fēng)頭的“糟心事”，谷歌已經(jīng)不是第一次經(jīng)歷。2023年12月，谷歌原定上線Gemini時(shí)，OpenAI便在11月?lián)屜扰e辦了首屆開發(fā)者大會(huì)。為此，Gemini的上線時(shí)間一度被傳，要被延后到2024年初。

　　這一次，面對(duì)OpenAI“騎臉”開打，谷歌也不甘示弱地做出了反擊，很快在官方賬號(hào)里放出了語音助手的demo實(shí)時(shí)演示。

　　▲

　　谷歌旗下人工智能研究機(jī)構(gòu)DeepMind的CEO和聯(lián)合創(chuàng)始人Demis Hassabis、谷歌AI工作室產(chǎn)品負(fù)責(zé)人及Gemini API研究人員Logan Kilpatrick紛紛下場(chǎng)表示，自己將在本屆I/O大會(huì)上“首秀”。

　　兩大巨頭在實(shí)時(shí)語音助手戰(zhàn)場(chǎng)正面交鋒，讓看客直呼精彩。但也有人給谷歌先潑了涼水，評(píng)價(jià)道：“Sorry Google but we got it one day earlier（對(duì)不起谷歌，但我們一天前已經(jīng)得到這個(gè)了）。”

　　競(jìng)爭(zhēng)對(duì)手們?cè)趺崔k？

　　十年前，“科技春晚”還是蘋果發(fā)布會(huì)的代名詞。十年之后，主角已然輪換。

　　不得不承認(rèn)，“百模大戰(zhàn)”國(guó)內(nèi)外已膠著對(duì)戰(zhàn)了一年多，但每每在市場(chǎng)中扛起“議程設(shè)置”標(biāo)桿角色的，仍非OpenAI莫屬。接下來，圍繞GPT-4o多模態(tài)功能更新的交互體驗(yàn)，也勢(shì)必將掀起市場(chǎng)中的新一輪攻防大戰(zhàn)。

　　此前，市場(chǎng)在曝光了OpenAI可能發(fā)布AI搜索產(chǎn)品、硬剛谷歌之時(shí)，已有各路大V下場(chǎng)，激辯“AI搜索”的未來。GPT-4o的最新體驗(yàn)，也為還在苦苦追趕的國(guó)內(nèi)AI創(chuàng)業(yè)市場(chǎng)，平添了許多緊張氣氛。

　　不過，從業(yè)界的綜合觀察來看，國(guó)內(nèi)創(chuàng)企亦不必覺得節(jié)奏被OpenAI追逐得難以喘息。比如，OpenAI沒有選擇上線GPT-5，本身亦是大模型訓(xùn)練“卷”至高階，也逐漸進(jìn)入到瓶頸期的反映。

　　作為目前在研的OpenAI最新一代大模型，GPT-5被視為有望對(duì)現(xiàn)有模型形成碾壓級(jí)超越的產(chǎn)品。其性能、售價(jià)等因素，也將直接影響市場(chǎng)的發(fā)力方向。

　　而從2022年11月到2023年3月，OpenAI很快完成了從ChatGPT（基于GPT-3.5）到GPT-4的跨越，但GPT-5的發(fā)布目前還沒有具體時(shí)間表。

　　有關(guān)GPT-5的亮相時(shí)間，市場(chǎng)已經(jīng)存在多個(gè)版本。此前，OpenAI官網(wǎng)曾預(yù)計(jì)GPT-5將在2023年第四季度推出，隨后發(fā)布時(shí)間推遲。如今市場(chǎng)傳聞稱，GPT-5有望于年中、今夏發(fā)布；亦有媒體援引內(nèi)部人士消息稱，GPT-5或?qū)⒂?024年11月份亮相。

　　而就在剛剛過去的4月，還有許多人在網(wǎng)上曬出了OpenAI發(fā)出的“紅隊(duì)測(cè)試邀請(qǐng)”郵件截圖。在AI行業(yè)，“紅藍(lán)對(duì)抗測(cè)試”是保證大模型安全性的重要方式，測(cè)試人員通過不斷地挑戰(zhàn)模型，以便提前對(duì)漏洞“查漏補(bǔ)缺”。因此，市場(chǎng)猜測(cè)雖然OpenAI未標(biāo)明模型版本，但GPT-5或許已經(jīng)接近發(fā)布。

　　也有業(yè)內(nèi)人士猜測(cè)，GPT-5的“姍姍來遲”，或因OpenAI研發(fā)遇到某種天花板。與此同時(shí)，OpenAI在今年2月16日發(fā)布的重磅文生視頻模型Sora，雖然看起來技驚四座，但OpenAI至今仍未開放使用Sora，更遑論商業(yè)落地。

　　▲

　　在專業(yè)人士看來，Sora越快開放使用，就能提早完善問題、重塑商業(yè)流程。

　　音視頻協(xié)作軟件“分秒幀”創(chuàng)始人程剛對(duì)「市界」講道：“我們目前看到Sora存在幻覺問題、精準(zhǔn)度問題、對(duì)物理世界的理解，以及模擬不準(zhǔn)確所帶來的邏輯問題、版權(quán)溯源和版權(quán)保護(hù)問題，以及有人濫用工具去生成虛假內(nèi)容的問題等等。這些問題當(dāng)然會(huì)影響Sora在商業(yè)場(chǎng)景中的使用。”

　　但他判斷：“Sora迭代的速度，基本可以參照ChatGPT的迭代速度。Sora對(duì)現(xiàn)實(shí)模擬不準(zhǔn)確的問題，比如手有六指，（如果放開使用）應(yīng)該半年左右就能得到比較大的優(yōu)化。”