騰訊主導!新一代實時語音編碼標準AVS3P10即將發布

騰訊主導!新一代實時語音編碼標準AVS3P10即將發布
2024年06月27日 00:52 網易新聞

6月26日,記者獲悉,新一代實時語音編碼行業標準AVS3P10即將正式發布。

該標準由騰訊提議啟動、推進和維護,以騰訊首款神經網絡語音編解碼器Penguins為原型,經過AVS音頻組多家成員單位共同貢獻。

作為全球首個系統性引入人工智能并實現真正意義上的低碼率下高質量語音編碼標準,AVS3P10的表現達到國際一流水準。僅需現有主流標準1/3的編碼碼率,就能實現同等清晰的音質。

這意味著,今后在線上會議、語音通話等實時音頻場景,帶寬要求大幅降低。即使在電梯、地庫、隧道等網絡很差的環境,也能實現清晰流暢的語音通話。

在有限的帶寬條件下,想要將聲音高質量傳遞到接收方,壓縮原始數據、去除冗余信息的語音編碼技術是其中關鍵。然而,基于EVS、OPUS等現有主流音頻編解碼標準,當碼率降低到10kbps以下時,語音質量下降明顯,影響用戶體驗。

為應對該挑戰,騰訊會議天籟實驗室聯合騰訊AI Lab自研了騰訊首款神經網絡語音編解碼器——Penguins。此次AVS音頻組AVS3P10標準采納的騰訊側方案,就是以Penguins為原型。

具體來說,Penguins將AI與傳統技術緊密融合,從算法研究、工程化、產品化層面做了大量系統性創新,打破傳統香農定律的性能極限,引入大數據并在可控算力增量下提供了新的性能上界,從而對下一代通信系統,尤其是信源編碼器部分,提供了新的技術基礎和方法論。通過AI語音信號建模,提取最核心的特征參數編碼,再借助深度學習網絡,預測并重建語音中的細微結構,最終生成逼真的音頻波形。

多方測試表明,騰訊提交的AVS3P10標準,代表了目前AI Codec的行業最高水平。該標準實現了6kbps下的高質量語音通信,即使在“2G”網絡下也能實現清晰通話,且主觀質量非常接近原始參考信號,媲美國際主流的OPUS標準在20kbps的質量。同時,主觀質量對標傳統編碼的中高碼率情況下,編碼效率提升200-300%。

2021年起,Penguins音頻編碼器就在騰訊會議的駕駛模式、弱網模式及QQ語音通話等場景中投入規模應用,支持了億級用戶的流暢溝通。無論是在復雜的網絡環境中,還是在高速移動的交通工具上,都能提供清晰的音頻通信體驗。

2023年3月,騰訊團隊在AVS音頻組主動提議并參與標準制定,促進行業的技術進步,即AVS3P10實時語音編碼標準。隨后,騰訊提交基于Penguins的候選技術;經過AVS音頻組交叉驗證后采納。2024年6月,AVS3P10實時語音編碼標準正式完成標準化工作,進入公示階段。

值得一提的是,騰訊主導該標準制定的過程,也被AVS工作組評價為制定速度最快,標準交付質量最高,測試得到充分好評。

“AVS3P10實時語音編碼,作為新一代的語音編解碼技術標準,是對AVS系列標準的重要補充。該標準是當前業界的最高水平,體現了騰訊在語音處理、人工智能技術創新和用戶體驗方面的實力,將為用戶帶來更好的體驗”,AVS工作組指出。

在編解碼、音頻降噪、語音增強等領域,騰訊會議天籟實驗室正在探索實時音頻通信前沿技術,打造全球領先的實時音頻通信端到端解決方案。同時,通過將更多研究成果應用到騰訊會議等產品中,持續提升用戶體驗,打造“聽得清、聽得真”的極致體驗。

雷峰網

海量資訊、精準解讀,盡在新浪財經APP
騰訊 新一代 騰訊會議

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 07-11 科力裝備 301552 --
  • 07-01 喬鋒智能 301603 --
  • 06-26 鍵邦股份 603285 18.65
  • 06-24 安乃達 603350 20.56
  • 06-17 愛迪特 301580 44.95
  • 新浪首頁 語音播報 相關新聞 返回頂部