安裝新浪財經客戶端第一時間接收最全面的市場資訊→【下載地址】
來源:硬AI
OpenAI被超越了,而且還是“栽在”已經公開演示過的語音助手上。
當地時間7月3日周三,法國獨立非盈利AI研究實驗室Kyutai公開演示了一款語音助理Moshi的實驗性原型。Kyutai介紹,Moshi由該實驗室的八人研究團隊耗時六個月從零開始開發,是全球首款全體大眾都可使用的實時生成式語音AI。
Moshi具有多種類似人類的情緒。Kyutai的科學家們表示,Moshi系統能夠帶著70種情緒和風格講話。他們現場演示了,Moshi如何就攀登珠穆朗瑪峰提供建議,還讓Moshi用濃重的法國口音朗誦一首它自己創作的詩歌。
Kyutai宣布,周二晚些時候可在其網站查看Moshi的交互式演示。從周二起,就可以在線免費測試Moshi。Kyutai致力于為AI的開放研究和整個生態系統的發展做出貢獻,Moshi模型的代碼和權重將很快免費共享,這對于此類技術來說也是前所未有的。Kyutai的一名代表表示,Moshi模型和相關研究將在未來幾周內發布,沒有透露具體日期。
Kyutai認為,Moshi有潛力徹底改變數字世界中語音的使用方式,并舉例稱,在表達情感和多種聲音之間的互動方面,它的文本轉語音功能非常出色。
Kyutai的CEO Patrick Pérez稱,Moshi可以“邊說話邊思考”,還說“我們相信 Moshi 具有巨大的潛力,可以改變我們與機器交流的方式。”
研究者Lucas Beyer在社交媒體發帖評論,Kyutai的Moshi是首個實時音頻大語言模型(LLM)。Kyutai的演示種,Moshi基本上沒有延遲,甚至還打斷了演講者幾次。它實際上有點急于快速回答。而且Moshi是全部開源的。雖然聲音質量還有點機械化,但作為初版,它還是表現不錯。總體來說很酷。
Beyer指出,演示時,在蘋果電腦macbook設備上的模型有一些實時拒絕誤報,也許Kyutai對安全調整有點太急切了。然而,這只是證實了演示確實是實時的,甚至可能是自由發揮的,他喜歡這點。
有網友評論稱,有趣的是,看到日語單詞以賽博朋克的方式融入西方文化。在日語中,Kyutai 的意思是球體,moshi 是電話里的口語問候語,所以這兩者結合起來就是“你好球體”。
Moshi被視為ChatGPT的最新挑戰者。包括Anthropic、Cohere和谷歌在內,越來越多初創公司和科技巨頭推出模型與GPT-4 競爭,盡管一些行業專家擔心這項新興技術帶來危險。
Moshi的問世讓Kyutai成為搶跑OpenAI推出語音助手的先鋒。OpenAI之前打算在機器人聊天工具ChatGPT上提供類似功能,不到兩個月前正式向公眾展示了基于GPT-4升級版GPT-4o模型的語音助手。
在OpenAI今年5月中展示過程中,語言助手表現得像一個真正的成年人,能聽能說能看,還能有情緒變化,最關鍵是幾乎可以即時回應請求。它不僅可以講睡前故事,能通過外表觀察人的情緒變化,還能像一位朋友般安撫人緊張的情緒,甚至還可以像個經驗豐富的數學老師般指導解代數方程,讓一些觀眾聯想到了2013年電影《她》中的AI虛擬助手。
但一個多月后,OpenAI又宣布因安全顧慮推遲發布上述語音助手。6月25日上周二,OpenAI在社交媒體發帖稱,推遲上線ChatGPT語音助手功能是因為,需要確保它能安全有效地處理來自數百萬用戶的請求,還需要一個月才能達到公司的發布標準。
有網友本周二評論稱,Kyutai推出Moshi基本上等于,把OpenAI還沒公開發布的客戶產品開源了,向Kyutai致敬。
不同于微軟150億美元支持的“美系”資本背景OpenAI,Kyutai致力于研究通用AI,去年11月“出生”起得到合計3億歐元支持,其中主要來自歐洲實業資本。
Kyutai是法國億萬富翁Xavier Niel去年表示將對AI領域投資2億歐元的投資對象之一。Niel旗下的電信集團Iliad去年公布,將為Kyutai項目投入1億歐元。另一位法國億萬富翁、法國航運和物流巨頭CMA CGM的CEO Rodolphe Saadé也對Kyutai投資了1億歐元。前谷歌CEO Eric Schmidt也參與了Kyutai的投資,未披露金額。
Niel本周二表示,Moshi表明,歐洲可以成為AI發展的全球參與者。Kyutai“今天展示的所有產品都是全球一流的,我們很高興能在歐洲推出這款產品。”
在安全方面,Kyutai的首席科學官 Hervé Jégou介紹,Kyutai將使用索引和水印工具識別和跟蹤其 AI 生成的音頻。
責任編輯:楊淳端
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)