安裝新浪財經(jīng)客戶端第一時間接收最全面的市場資訊→【下載地址】
OpenAI首次展示音頻模型Voice Engine,15秒即可復(fù)制原音,生成的聲音太逼真了!
AIGC開放社區(qū)
用戶只需要提供15秒左右的參考聲音,通過Voice Engine就能生成幾乎和原音一模一樣的全新音頻,在清晰度、語音連貫、音色、自然度等方面比市面上多數(shù)產(chǎn)品都強很多。
3月30日凌晨,OpenAI在官網(wǎng)首次展示了全新自定義音頻模型“Voice Engine”。
用戶只需要提供15秒左右的參考聲音,通過Voice Engine就能生成幾乎和原音一模一樣的全新音頻,在清晰度、語音連貫、音色、自然度等方面比市面上多數(shù)產(chǎn)品都強很多。
除了能合成音頻之外,OpenAI還展示了Voice Engine很多其他際商業(yè)用途,例如,一位失去聲音表達能力的女孩,在Voice Engine幫助下能像以前一樣正常發(fā)音說話。
Voice Engine功能展示
OpenAI并非展示了一些簡單的demo,而是一些實際場景化用例,這也就是說Voice Engine的技術(shù)已經(jīng)非常成熟。
Age of Learning 是一家兒童教育公司,他們一直在使用Voice Engine生成各種有聲讀物。同時還通過與GPT-4的相結(jié)合使用,創(chuàng)建實時、個性化的回答與學(xué)生互動。
例如,使用一段15秒的參考音頻。
age-of-learning-reference
00:00 / 00:15
就可以生成幾乎一模一樣的語音。
animals
00:00 / 00:16
除了語音合成之外,Voice Engine還能提供視頻翻譯功能,可以將一種視頻語音無差別的翻譯成多國語言。
HeyGen是一家AI視頻合成平臺,主要幫助企業(yè)開發(fā)商品展示的“數(shù)字人”。他們通過使用Voice Engine進行視頻翻譯,擴展至多國語言來擴大全球覆蓋受眾。
輸入一段原參考語音
heygenenglish
00:00 / 00:16
就能將其轉(zhuǎn)化成中文語音
heygen-mandarin
00:00 / 00:24
或者日文語音
heygen-japanese
00:00 / 00:22
幫助聲音受損的人恢復(fù)聲音:諾曼-普林斯生命科學(xué)研究所正在測試一項實驗,正通過Voice Engine幫助那些因腫瘤或神經(jīng)系統(tǒng)病因,導(dǎo)致語言障礙的患者恢復(fù)聲音。
目前,他們已經(jīng)幫助一位因血管性腦腫瘤,而失去流利語言表達能力的年輕女患者恢復(fù)了聲音。
下面這段聲音是女患者的,她已經(jīng)無法清楚表達自己說的話。
lifespan-current
00:00 / 00:30
通過提供她之前正常的語音,用Voice Engine進行轉(zhuǎn)譯。
lifespan-reference
00:00 / 00:15
現(xiàn)在這位女患者可以正常與其他人交流了。
lifespan-talking
00:00 / 00:16
OpenAI表示,其實他們在2022年底便開發(fā)了Voice Engine,并將其用于支持文本到語音 API 中的預(yù)設(shè)語音以及 ChatGPT 的語音和朗讀功能。
但出于安全考慮一直沒有全面公測,目前也只是小范圍測試。因為相比文本、視頻,音頻的造假能力太強了幾乎無法分辨出來。
此外,OpenAI首席技術(shù)官Mira Murati在前不久接受的采訪時表示,未來Sora生成的視頻會帶聲音的,很可能為其提供聲音的就是Voice Engine。
本文作者:AIGC開放社區(qū),來源:AIGC開放社區(qū),原文標題:《OpenAI首次展示音頻模型Voice Engine,生成的聲音太逼真了!》
風(fēng)險提示及免責(zé)條款
市場有風(fēng)險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負。
責(zé)任編輯:王永生
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)