淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。
耳朵被虐哭?
正義老師傅怒搓 AI 為“聽感”報仇!
文 | 史中
(零)紅燒肉引發的血案?
鐵柱不顧旁人勸阻,找了一位黑客女友。
然而命運的饋贈早就暗中標好了價格。
今天,他和女票吵架,女票不知施了神馬法術,把鐵柱的手機網速封印在了?6kbps,然后奪門而出消失在夕陽下。
這個網速簡直是詛咒,短視頻刷不開,游戲打不了。手機唯一的作用就剩下給女友發信息道歉了。。。。
但鐵柱不打算屈服。
事已至此,先吃飯吧。他決定自己做一道紅燒肉。
切好了肉,燒熱了油,誒,后面該咋弄嘞?
鐵柱掏出手機,搜索紅燒肉的菜譜。然后,網絡像體弱的郵差一樣,艱難地搬運遠方的消息。
等了足足一分鐘,才看完介紹:“紅燒肉是一道很普通的家常菜,一鍋濃油赤醬,肥而不膩,放在桌子上一拍抖三抖。”
又等一分鐘,加載出一張紅燒肉成品的圖片。。。
又等了半分鐘,才出現第一步操作:準備新鮮的五花肉。
鐵柱心態崩了,一怒之下關掉網頁,嘴角流下了不爭氣的淚水。
就在這時,他突然想到另一個女人——媽媽。
他打開手機QQ,試著給媽媽撥了語音電話。
網頁都打不開,語音他也沒抱希望。
但老媽的聲音傳過來時,鐵柱驚呆了,居然清晰流暢。
千里之外,老媽揮斥方遒,一邊跳著廣場舞,一邊指揮灶臺前的鐵柱做好了紅燒肉。
那一刻,鐵柱突然被老媽的廚藝治愈,決定把女友召喚回來一起吃飯,兩人冰釋前嫌,從此沒羞沒臊地生活在一起。。。
淺友們,故事當然是我編的,但其中的硬核技術卻是千真萬確的:
如今的騰訊老師傅,真的能夠在打開網頁都費勁的 6kbps 的極限弱網下實現“通話自由”。
這個技術得來不易,背后還藏著一串動人的故事,且聽中哥慢慢道來。
(一)只有耳朵負重前行的世界?
“啪!”
肖瑋突然打了一個響指,我一激靈。
“你有沒有發現,人對于聲音事件是非常敏感的?”他說。
作為研究音頻信號傳輸十幾年的騰訊老師傅,肖瑋對音頻熟悉到了“從聲波里都能看出夢娜麗莎”的程度。
騰訊的技術老師傅
他告訴我一件很委屈的事情:
千萬年來,聽覺都在用極小的“帶寬”承擔著極大的“信息量”。
啥意思呢?
人的腦袋上,有700萬個視覺細胞,卻只有2萬個聽覺細胞。
要是把它倆比作公司,那眼睛是個有 700 萬員工的“大廠”,耳朵則是只有 2 萬人的“創業公司”。
可是憑胸而論,人做決策所使用的視覺信息和聽覺信息的比例,絕對不會是 700:2 這么夸張。
科學家們研究,根據場合的不同,視聽信息在人們決策中的比例大概在 8:1 ~ 3:1 之間。
可以說,聽覺用極其有限的數據量,托起了我們對于環境感知的半壁江山——貢獻可謂杠杠的!
這還沒有算把口罩帶眼鏡腿都勒耳朵上(甚至有時候還得挨一槍)的貢獻。。。
耳朵負重前行。。。
話說回來,這科學嗎?
音頻是怎么用這么窄的帶寬,貢獻了這么豐富的信息量呢?
原因就在于,人腦對音頻信號的處理極其精細:
環境里的噪音突然變化,人立馬會感覺哪里不對勁;
說話聲音有瑕疵、失真、微弱的顫動,人都能分辨出來。(甚至有時人們不愿承認聲音的貢獻,把它歸功于第六感。。。)
說到這,我提醒你注意:日常服務各個感官的資源也不是平均分配的——分配給視頻的資源一般是大頭,分配給音頻的資源一般是零頭。
先說硬件:
就拿 iPhone 15 Pro max 來說,總共558美元的硬件成本,屏幕占了 110 美元,攝像頭 90 美元;而揚聲器和麥克風各自只有10美元左右。。。
再說軟件:
就拿“騰訊會議”來說,一般要給高清視頻預留的帶寬是 4Mbps(每秒400萬個比特),傳輸音頻一般只給留 100kbps(每秒10萬個比特)。
耳朵沒人疼愛。。。
所以說,音頻工程師玩兒的都是高端局:要用極其有限的軟硬件資源,來硬控敏感且挑剔的耳朵。
他們面前的游戲是醬的:
如果用 100kbps 的網速楞傳原始的音頻,就是把大象塞冰箱,純純 Mission Impossible!
于是,前面只有兩條路。
1、降低音頻采樣率。
你弱水三千我只傳一瓢還不行?比如上世紀90年代的電話機,聽筒里的聲音聽起來非常悶,這就是采樣率低的結果。
2、降低音頻采樣率,再用某種算法處理,盡量往原聲音“找補”一下。
沒錯,這個操作就是我們都聽說過的“壓縮”。從早期的 ADPCM 到上世紀90年代出現的 MP3 格式,也算是撫慰了一代人的耳朵。
壓縮的原理大概是這樣↓↓↓
敲黑板!一涉及到“壓縮算法”,這個事兒就考驗技術了!
因為算法和算法之間的差異,就像是“張華考上了北京大學,李萍進了中等技術學校,我在百貨公司當售貨員”這么大。
而且你知道嗎?生命體的智能水平差異,本質上就是壓縮能力的差異。不久前我寫了一篇文章《當 AI 活成了你的樣子》,就是在探討這個道理,強烈建議淺友去看看。
雖說人類對于音頻的壓縮算法一直在進步,但最近十幾年,已經一度慢到了“擠牙膏”的程度。
老師傅把能想的轍都想了,但把已有技術發揮到極限后,壓縮就變成一個純蹺蹺板:
1、要想省帶寬,就得費算力。
2、要想省算力,就得費帶寬。
這很好理解。既然傳輸的原始數據少,那很多結果都得靠大量計算得到嘛!反之,你要不想做這么多計算,原始數據還不給多些?
不過,漫長的黑夜總會過去。
2019 年左右,一絲不易察覺的曙光開始灑落。
(二)以假亂真術:我們時代獨有的光芒?
我們來打一個比方。
現在,你是 A 國博物館的館長。
B 國對 A 國發動了戰爭,眼看就要攻下首都。總統決定撤離,撤離前給你派來一列火車,讓你挑選一些最能代表 A 國文明的文物。
總統凝重地說:這一去,也許世世代代都無法再回來了。我們的后人就要靠這一列車的文物來理解我們的文化,重建我們的文明。
你眼淚下來了:“總統,我們的文化博大精深,別說一車皮,就是一百車皮也拉不下啊!”
總統說:“為了給你擠出這一列火車,已經有無數前線將士失去了彈藥補給,不可能再多了!”
請問,這時你會怎么辦?
你能想到的辦法,肯定是召集博物館的專家討論,選出你們認為最能代表 A 國文明的文物,然后反復嘗試用最緊湊的方式打包,把這一火車皮塞到爆!
沒錯,不知不覺中,你已經在研發壓縮技術了。
1)為了能最大程度重建 A 國文明,不同專家選出的代表文物肯定不同,這就是使用的“采樣方案”不同;
2)同樣是塞滿一車皮,好的專家確實能選出維度更豐富,更適合重建文明的文物組合,也就是說,他們的壓縮方案更優。
但是!無論怎么挑選文物,這些方法最終都歸為“經典壓縮技術”的范疇。
難道。。。還有什么更逆天的,降維打擊的騷操作??!!
沒錯,現在換中哥來當博物館館長。
中哥把專家們都叫來,讓他們四步走:
1、找到最有代表性的文物,然后只留關鍵部分。把霓裳剪開,只留最精美的紋飾;把瓷瓶打碎,只留最核心的圖案。
2、然后再從不同領域挑選一些最有代表性的完整器物,不用太多;
3、把這些”零件“用最緊湊的方法打包,同樣一車皮,我們當然可以攜帶更多東西。
4、到了新家園,我們依靠少量的完整器物加上眾多的精美殘片,再加上文物專家的經驗和智慧,利用當地找來的輔助材料,就能復原這些文物。
用這種方法復建的博物館,最終擁有的文物數量可能比只帶完整文物的方法多三倍以上,完全突破了經典方法的上限↓↓↓
看到這,你可能皺眉:咋還破壞文物呢?那最后復原出來不是贗品了么?
這就說到了精髓。
我們的目標是“對文明負責”,而不是“對某個文物負責”。你可以說最后復原出來的文物是贗品,但它是根據科學嚴謹的方法復原的,“贗”得有道理!在傳續文明的意義上,它可以達到和真實文物幾乎一樣的效果。
而且你想想,在傳統方案中,我們可是把更多的“文物”給整個丟棄了,這難道不是更大的罪過嗎?
看完這個比喻,我想你已經猜到了這種新一代的音頻壓縮方案,那就是——“人工智能加持的編解碼”,簡稱 AI Codec。
它可以只用過去三分之一的數據量,復原出和傳統壓縮算法一樣,甚至更好的音質。
肖瑋所在的騰訊會議天籟實驗室,前后花了五年時間磨出這支寶劍—— Penguins AI 語音引擎。
少廢話,先看東西,哦不,先聽東西!
第一段是原始音頻:
第二段是用經典算法 OPUS 適配正常的 20kbps 碼率時壓縮的音頻:
第三段是騰訊老師傅用 Penguins 壓縮后,用不到三分之一碼率,也就是 6kbps 傳輸的音頻:
第四段是用經典算法 OPUS 在 6kbps 碼率下的壓縮音頻:
人的耳朵很敏感的,我保證你聽到“第四段”時,已經不能忍它的全損音質了。
明確告訴你,這第三段音頻就是使用“聲音殘片”借助 AI 恢復后的“贗品聲音”。
現在只有 6kbps 的網速,只能在“三”和“四”中間選一個,你會選哪個?
反正就算是天王老子來了,我也會選第三個。
說到這兒,我插一句。并不是說以前的音頻老師傅有什么道德潔癖,死活不愿意用 AI 生成贗品聲音,而是因為之前的 AI 技術根本達不到“以假亂真”的效果。
不同碼率傳輸,恢復后的頻譜對比(紅色:原始語音 / 藍色:Penguins@6kbps /?黃色:OPUS@6kbps)可見藍線與紅線非常接近。
我們有幸能聽到這第三段聲音,需要感謝“生成式人工智能”(AIGC)在最近幾年的突飛猛進。
話說,騰訊師傅是怎么用人工智能把這些聲音殘片修復到和真的聲音一毛一樣嘞?
接下來看中哥徒手劈磚,給你掰開來講講其中的道理。
(三)從“二刺猿美少女”說起
先給你推薦一個網址(鏈接放文末)。你點進去,啥也不用干,它就會給你自動生成圖片。
啥圖片嘞?二次元美少女頭像。
你盯著一張圖片的生成過程,會覺得匪夷所思。因為它最初就是一堆“雪花”,然后每隔半秒就刷新一次,每刷一次就清晰一點兒,直到最后,少女定格在屏幕上。
我 50x 加速給你看下:
沒錯,這張圖片就是這堆“雪花”通過 AI 模型算出來的。
具體來說,這個 AI 模型預測的是“噪聲”↓↓↓
每一次它都會根據現有圖片預測哪些點位是噪聲,然后從圖片中把噪聲去掉;
再在這張新圖的基礎上重新計算噪聲,去掉;
如此迭代300次,就出現了一張少女圖。
這個過程就像米開朗基羅從一塊里石頭里反復敲掉碎屑,一直敲掉 300 層,每一層敲掉的都是“噪聲”。最后剩下的部分,就是“大衛”。
你可能會問:為啥這個 AI 模型不斷去掉噪聲,最后剩下的就是美少女呢?為啥不是老爺們、皮卡丘?
因為這個 AI 模型當初就是用無數美少女的圖片訓練出來的。其中飽含著對全世界美少女頭像特征的理解,它只會畫美少女。
就像米開朗基羅剛動手的時候,雖然腦海里不能確切描摹出大衛成型后的每一寸肌膚,但他“方向性地”知道自己要雕一個健碩男子,最后肯定不會離譜到雕出個皮卡丘。
而隨著他一層層雕刻,大衛的樣子果然逐漸出現,最后定格成現在的樣子。
好,我們說回“美少女生成模型”。
從信息論的角度看:減少噪聲的過程,就是向其中不斷添加信息量的過程。
在開始的第 1 步,圖像是一堆完全隨機正態分布的噪點,誰都猜不出最后出來的美少女是啥樣,其中蘊含的信息量可以視為0;
但到了第 100 步,圖像中已經蘊含了一些信息,但如果你是個老二刺猿,也許基本能猜出最后的成品是啥樣了。
到了第 200 步,圖像中的信息已經很豐富了,哪怕你是個普通人,也基本能猜出最后成品的樣子了。
到了第300步,你就不用猜了,所有信息都展現給你了。
注意!
從第1步到第300步,圖片里的信息量逐漸增加,圖片文件也越來越大。
如果我把信息含量更少的“第200步”版本傳給你,而你手里的 AI 模型恰好能夠把它復原成第 300 步的成品,咱倆不就可以節省傳輸成本么?
在你同樣可以恢復圖像的前提下,我給你傳遞這張圖片的“第 100 步”版本,成本不就越低么?
說到這,估計聰明的淺友已經感覺到這個“美女生成模型”和“聲音復原模型”的關系了。
它們本質上就是一件事兒!
1、把我聲波里的關鍵信息做一些提取;
2、然后把提取結果發給你;
3、你再用專門的 AI 模型把它還原出來!流量帶寬不就妥妥省下了嗎?
2019年夏天,騰訊會議天籟實驗室負責人商世東找到同學們,就是商量這個神秘的議題。
作為在音頻領域深耕二十多年資深音頻人,商世東清楚編碼器對生態的價值,這么多年也親歷了不少編碼器江湖的往事,他覺得新的時代快到了。
大家一致決定,開始在 AI Codec 的“無人區”里搞搞事情。
之前我們說過,AI Codec 就像是在文物局部取碎片,而 Codec 就像是取整個的文物,它倆的采樣機制完全不同。可以說,AI Codec 為核心的編解碼器,幾乎是一項全新的技術。
全新的技術,破舊立新,改天換地,多酷!
從看熱鬧的角度確實酷,從干活兒的角度嘛。。。這里面有三個大坑:
第一坑,這個 AI 模型受到的限制賊多。
這里就得提到 Penguins 底層技術的另一個貢獻者:騰訊 AI Lab。
騰訊 AI Lab 的陽珊告訴我,實時通信的場景既要高質量,又要低復雜度,還要低延時。單獨滿足某一個都不難,但做出既要又要還要的模型,就純純難煞打工人了。
第二坑,騰訊這幫產品經理,那可是太難纏了。
騰訊以產品著稱,所以產品經理極其寵溺用戶。
他們“龜毛”到了啥程度?但凡技術同事拿來的新玩意兒可能造成用戶體驗有一絲一毫的下降,甭管成本降低多少,都不可能更換。您就別找我談,面斥不雅。。。
所以,在找產品經理之前,老師傅必須在家里先“暗搓搓”測試完。
騰訊會議質量測試團隊的高雄告訴我,他們專門搓了一個評價系統,同時測試傳統方案和 AI Codec 方案,這樣才方便比較嘛。
這個系統外號叫“包青天”,每次改進,但凡有一點不合格就會打回來,技術老師傅開心得拳頭都硬了。
其實,技術團隊和測試團隊兩撥師傅從沒紅過臉,畢竟知道他們“是為自己好”。。。
第三坑,還得看新技術的改造成本呢!
根據天籟實驗室的經驗,音頻編解碼技術要是在體驗打平的前提下,成本不降低個20%,產品團隊基本不會考慮。
然鵝,剛才我們說了,AI Codec 是一項全新的技術。如果說傳統編解碼器的升級像是把房子重新裝修,那么 AI Codec 就像是把房子拆了重蓋!
這么大動干戈,只多 20% 的好處,那人家房東肯定還是不干啊!
2019 年底,肖瑋他們就關起門來打過算盤,要想讓新編解碼器驚艷世人,起碼得把性能提升個 300% 神馬的。。。
在業界,對于音頻質量的好壞其實是有一個評分標準的。5 分是完美,0 分是完全沒法聽。
騰訊產品的“龜毛”要求,一般最低得是 4 分,最好是 4.5 分。
要想保證 4 分的用戶體驗,音頻界公認的最低網絡要求大概是 20kbps,也就是說,天籟實驗室的目標只能是:效果做到 4 分以上的同時,把網絡要求降低到 6kbps!
就像下面醬↓↓↓
當時老師傅們算出這個數,把自己都嚇了一跳。
因為根本做不到,打死也做不到。。。
搞技術要實事求是,不能搞什么“畝產萬斤”,他們只好含恨把這條技術路線放下了。
但是,這個念頭如微弱的火苗,一直在大家的腦回路里燃燒,等待有一天找到噴薄的出口。
(四)不管黑貓白貓
話說,老師傅到底卡在哪了呢?
你還記得我們之前說過的“蹺蹺板”么?
在技術一定的前提下,帶寬和算力是此消彼長的關系。
如果用 AI 模型來做編解碼器,把帶寬速率壓到 6kbps 其實是可以的,但是此時要把它恢復到 4 分的音質,就需要一個很大的模型來搞,甚至光靠 CPU 都跑不動,得上 GPU。
這個模型說大,其實也不大。全世界對于音頻處理的要求都是很苛刻的,不可能給到和視頻處理一樣的軟硬件資源,大概整個手機,能劃給你5%~8%的算力就頂天了。
當然各個手機的算力不同,但平均而言,這個限制下,模型的個頭(或計算量)至少得從姚明砍到郭敬明。
可是怎么砍呢?
從 2019 年底開始,天籟實驗室一直有一支小分隊研究這個事情,他們不僅自己琢磨,也在關注國內外學術界的進展。
遇到有戲的技術就做一個 Demo,發現走不通就回來,也沒設定時間表。
但到了 2020 年,老師傅的思考節奏被猝不及防打斷——疫情襲來。
你可能還記得,就是這年春天,騰訊會議突然躥紅,成為了大家辦公上課的剛需。
當時老師傅們也顧不上新技術的研發,每天都在想著找資源擴容,尋思用什么姿勢才能頂住下個周一更大的流量洪峰。。。
這段經歷看似是支線任務,但現在回望,它給天籟實驗室留下一個閃亮的精神遺產,那就是:
關鍵時刻,當幾億人迫切需要大規模傳遞信息時,他們會犧牲畫面,而聲音是最后的信息承載渠道。
此時,“以低帶寬承載高質量的音頻”就不再是一個錦上添花的“玩物”,而是支撐我們社會運轉的“基石”之一。
把這個技術做出來,成了老師傅面對歷史的責任!
疫情剛一穩定,天籟實驗室就抽調出重要的同事,開始加碼 AI Codec 的研發。
到了 2021 年,他們心里已經隱約勾勒出一種可行方案。但愣是沒敢聲張。。。
為啥呢?
當時天籟實驗室已經推到了“無人區”。市面上沒有別人的技術可供參考了。他們抱著這個自研方案站在那里,左右都沒人跟上,多少帶點膽兒禿。。。
就在這時,天籟團隊偶然翻到了微軟音頻技術團隊一個簡短的分享。
文章只有區區幾百字,根本看不出啥信息,但他們一下子跳起來了。在荒無人煙的原野,只要能瞄見另一個獵手的影子,他們就足以心安,自己追蹤的方向對了!更何況看到的是一個公認的“好獵手”。
肖瑋嗅到了獵物的味道。他建議投入重兵,拉上?AI Lab?的陽珊他們,趕緊開整!已經前后追蹤了三年,可不能讓其他獵人給打了去!
賣了這么大的關子,到底技術是咋實現的?
其實捅破窗戶紙就很簡單:這個方案把“經典信號處理技術”和“AI Codec”結合了起來。
既然純粹用 AI 算力不夠,那可不可以在所有頻譜上,只劃出一部分重要頻譜交給 AI 模型處理,剩余的還交給經典技術處理?
這樣模型的計算量就不會超綱,總體質量還能保證香香!
就像下面這樣↓↓↓
你可能會說:就這?
話說,音頻處理領域就像一個武林,各個門派還是有很深的成見的。AI 派看經典派是行走的古董,經典派笑話 AI 派拿錘子看什么都是釘子,兩邊經常隔空吵架。
但肖瑋他們的意思是:最厲害的功夫,本來就不該有“門派”。
我是來做成這件事兒的,自然是哪招好用用哪招!黑貓白貓,抓到老師是好貓啊!
況且,即便“就這”,里面的學問還大著呢!
究竟把哪些頻譜交給 AI ,把哪些頻譜交給經典,才能讓總體聽感保持最佳呢?
對于語音信號來說,原則上低頻聲波攜帶的信息對聽感影響更重,高頻聲波攜帶的信息對聽感影響更輕,也就是說,要把 AI 盡量用在低頻波段上。
經典信號處理,高低頻的碼率分配大概是 1:8。
用這種“AI+經典”雜糅的方案,高低頻的碼率分配大概是 1:2~1:3。
就像下面這樣↓↓↓
嗯,紙上推演,似乎還不錯!
老師傅著手實操,試著從頻寬中間畫了條線,然后分別處理,結果是。。。。不行!
雖然總體計算量確實是下去了,但聽感也下去了,用這種方法壓縮的音頻在 6kbps 的碼率下居然低于 4.0 分。
“不叫事兒”,老師傅安慰自己,以為調調就能過去。但誰承想,低碼率下的聽感像是被強力膠粘在了 3.x 分,無論怎么左沖右突,死活上不去 4.0。
調到最后,老師傅已經雙目失神雙耳失聰了。。。
蒼天啊大地啊!明明技術其實已經突破了,但距離“騰訊級標準”就差那么一neinei,這也太窩火了。
但創新不就像打獵么?有時獵物就該在附近,獵手偏偏原地鬼打墻。此刻越急越找不到,冷靜下來沒準卻能不期而遇。
那天夜里,萬籟寂靜。躺在在床上,肖瑋突然睜開了眼,他仿佛聽到了千軍萬馬,正趕來支援。
(五)來自 40 年前的援軍?
人的聽力并非來自某種設計,而是漫長的自然演化中和環境互動不斷進化的結果。
這是一個大家都明白,但又極易忽略的道理。
由于進化歷史的復雜,在很多細節上,人的聽力是“不講武德”的,或者說,它背后的道理是不能那么容易講清楚的。
比如在狩獵時代人們需要分辨鳥鳴,演化就調高了特定高頻處的敏感度;比如有些頻率是野獸吼叫的聲音,會激發我們的杏仁核產生恐懼。
這就造成,人的聽覺系統雖然整體上偏重某個頻段,但演化又在這個大概的規律上持續給不同頻譜調整“權重”——最終,人的聽力不再是一個簡單的直線,而是充滿了難以解釋的“小起伏”。
既然聽力不是一個直線,那么你用一條直線去服務它,耳朵怎么會滿意嘞?
這張圖顯示了:相同音量下,人耳對不同頻率聲音的感知度是不同的。
耳朵里的事情,需要巧取,不能硬來。
肖瑋給我科普。
想明白這些,老師傅面前的問題就變成了:不同頻段里,到底哪些細節對于聽感而言是重要的呢?
這個問題,對碼農來說其實超綱了。。。它應該由“生物學家”“醫學家”或者“聽覺科學家”來回答。
但直覺告訴肖瑋,人類研究聲學信號這么多年,自己不可能是第一個考慮這個問題的人,一定有前人做過研究。
于是老師傅們決定——翻論文!各種有關聽力研究的,越精專越要啃,越艱深越不放過。
如山的論文,從 2021 年底看到了 2022 年初。
功夫不負苦心人,就在 2022 年春節前夕,他們居然找到了一篇上世紀 80 年代的論文,恰好研究了人耳在各個頻譜上的細節特性。
踏破鐵鞋,老師傅如獲至寶,趕緊按照其中的結論來調整系統框架,重訓模型。
春節一回來,模型還在迭代收斂中,就看到了評價系統的客觀評分超過了 4.0,一般來說,這種情況下主觀評分只會更高!
所有人的心臟都在突突地跳,這事兒成了!
果然,模型最終收斂,整個系統封裝之后,可以在 6kbps 的情況下,讓通話中聽感保持在 4 分以上。生生把最低碼率壓到了原本極限的三分之一。
Penguins 編解碼器誕生了!!
在音頻信號處理界,有一個公認最難纏的客觀質量測試標準,叫“ITU-T P.863”。
這個標準是由一眾老牌聲學家主導制定的,它關注的主要方向就是人的細節聽感。
實際上,很多基于 AI Codec 的壓縮方法在這個測試中得分都不高,所以他們經常心照不宣地跳過這個測試,反正外行也不懂。。。
天籟老師傅們點點頭,咱就得用這個指標考驗自己的成果!能夠在這個客觀測試標準中取得好成績,大概率 Penguins 也能給出頂呱呱的主觀通話質量。
果然,在這個測試中 Penguins 甩開對手老遠——畢竟它的關鍵設計思路就是在細節處給耳朵“跪式服務”嘛!
這張圖里,藍色柱子是 Penguins 的得分,橘色柱子是同樣采用了 AI Codec 技術的 Lyra2,可以看到 Penguins 表現全面領先。綠色和黑色柱子是基于傳統信號處理的 EVS 和 OPUS,與這些傳統信號處理方法的中高碼率的質量相比,Penguins 也不遜色。
普通人也許很難想象,最終幫他們打勝仗的決定性援軍,是來自 40 年前的一篇發黃的論文。
實話說,這篇論文的作者早已不再活躍,但他的研究成果卻守候在永恒的歷史岸邊,橫跨 40 年時空,把水中掙扎的素不相識的一群技術人拉上了岸。
他們相互對視,鞠躬致謝,然后揮手告別,這是一種無法言說的浪漫。
真正讓老師傅覺得自豪的是:
這篇論文一直在那里,它像一扇門,誰都可以推開。但是天籟實驗室最終想到去推這扇門,靠的并不是僥幸。
過去幾年無數嘗試碰壁后的經驗,無數細小技術突破積累出的直覺,無數次因為責任而決定再試一次的發愿,都化成一級級臺階,最終指引老師傅走到了這扇門前。
正所謂世上沒有白走的路,每一步都算數。
手握這個性能狂飆三倍的音頻編解碼標準,老師傅終于有勇氣敲響產品團隊的大門,這第一戰,當然就是和自己關系最密切的騰訊會議!
(六)只有 6bps 的世界?
在音頻處理界有句俗話:
算法好不好,現網跑一跑。
這是因為在現實生活中,網絡環境比實驗室復雜千萬倍。實驗室里的數據再炸裂,都不能代表它實際就很好用。
天籟實驗室的算法同學找到騰訊會議的產品同學時,騰訊會議的伙伴建議,先從帶寬最低的“駕駛模式”和“弱網模式”入手。
現有的編解碼器在 6kbps 下肯定卡,那就死馬當活馬醫,把這部分的編解碼器替換成 Penguins,反正不會更壞了。。。
在軟件里替換掉編解碼器已然工程量巨大,但這還只是萬里長征的第一步,老師傅們必須對于各個車型、機型在各種實際網絡工況下做實際測試。
這時,工程團隊和測試團隊就必須通力合作。
肖瑋回憶一個搞笑的細節:2022 年他們開著自己的車在公司附近兜圈,就是為了找到哪兒信號只有 6kbps。。。
這不是在摸魚旅游,是師傅們兜兜轉轉找弱網的地方時拍的。
“關鍵是信號還要穩定地差!有的地方測了兩天之后,可能運營商也發現這里信號不行,給強行改好了,這就很尷尬。”他吐槽。
有時候為了找到一個弱網環境,老師傅開車兜一天,油錢都心疼。
除了尋找各種網絡外,老師傅還要尋找各種手機。
因為他們必須確定:在各種機型、芯片、操作系統的組合下,尤其是在綜合性能較差的手機里,編解碼系統都能按預想的姿勢干活。
“非要把所有機型都真實測一遍嗎?這效率也太低了。”我問。
“就像瑞士手表,鐘表匠測試手表質量,就必須讓表真的轉那么多天;就像汽車防撞、手機跌落測試,廠家真的就得去撞去摔。現實世界很復雜,在測試環節沒有用虛擬替代現實的捷徑。”高雄解釋道。
就這樣,各種弱網、弱機都被他們搞了一遍,確實發現了很多隱秘的小坑。
他給我舉了一個“數據包”的小例子。
網絡傳輸音頻信號有點像寄快遞,是一個數據包一個數據包傳送的。
傳統方案當然是給每一幀音頻信息打一個包。
但是問題來了,每一個包外面還得有“包裝”,包裝上標注了這個數據包的基本信息,從哪來到哪去之類的,這就是“包頭”。包頭當然也占用一定的信息空間。
在新的編解碼技術下,每一幀的有效數據量變成了原有的三分之一,這時包頭的比重就變得很大,再這樣一幀數據打一個包就不劃算了!
于是老師傅們決定——把兩幀打進一個數據包。
像這樣的小改動還有很多,它們大多解決起來并不難,只是很瑣碎。
“其實有多少黑科技,就有多少工程量。”負責工程化的文龍吐槽。
他用“短木板”理論打了個比方:
算法的革新帶來的是體驗的上界突破,肯定讓人興奮;但是工程底坐卻是保證一切成功的前提。
沒有一個王牌 App 是通過各種高精尖算法簡單堆砌而成的,因為稍不注意,黑科技成了那塊“短木板”了!
為了保證 Penguins 能夠用起來,當時工程團隊把客戶端、服務后臺等好多節點都從新打磨——幾乎所有的重點處理鏈條都進行了針對性改造。
花了小半年時間,新的編解碼器終于在騰訊會議里成功安家。
接下來,騰訊會議又逐漸切換,把原有編解解碼器完全過渡到 Penguins 上,至此,從2019年就開始研究的技術,時隔漫長的三年,終于在第一個產品里實現了完整落地。
顧不上喘氣,老師傅又盯上了下一個“獵物”,那就是 QQ。
QQ 研發團隊的天成給我爆了一些“內幕”:
年輕人更喜歡用 QQ,而且他們使用 QQ 的姿勢和我們這群老人用微信的姿勢不同。
比如,年輕朋友之間,干啥都要連著麥干。哪怕各自刷網頁,也要保持著通話狀態。
甚至,情侶可能會“連麥陪睡”——倆人一宿不掛電話,聽對方睡覺,或者打呼嚕。。。
這已經不是“煲電話粥”了,簡直是“吸電話氧”了呀!不理解,尊重吧。。。
長時間通話,網絡環境肯定會經歷各種變化,QQ 要想保證他們在任何時點都不被卡掉線,就更艱難。
關鍵是,年輕人比較“貧苦”,用的手機大都不高端,這進一步壓縮了編解碼器的運算資源。
這。。。不就是 Penguins 最好的用武之地嗎?
于是在 2023 年,天成帶領的 QQ 團隊?也完成了編解碼系統的改造,在只有 6kbps 的世界里完成了“荒野求生”!
到這一步,天籟實驗室的師傅終于能騰出腦袋,思考那個“更遼闊”的問題:
既然技術飛躍這么大,而且已經在兩大 App 上證明了自己,我們能不能去申請成為下一代語音通信的編解碼標準呢?
憑借對標準的理解,老師傅們確信:在現有的標準體系里,AI Codec 標準妥妥是一片待開發的沃土。
尚世東調集算法、工程、質量等等團隊,開始向中國的標準化組織——AVS——遞交申請。
(七)成為榜樣?
說到音視頻壓縮傳輸標準,估計有的淺友覺得這是某種“榮譽稱號”。
其實不然,從歷史上看,音視頻壓縮標準一直是廠商甚至國家之間角力的戰場。
就拿大家平時看片都會用到的視頻壓縮格式“MP4”和“MPEG”來說,它的音視頻標準被稱為“H.264”,背靠國際標準化組織(ISO)和國際電聯(ITU)。很多國際公司,例如杜比、索尼、AT&T 等都參與了這個標準背后的研討。
H.264 的授權協議
而這些公司可沒有在做慈善,他們通過 ISO 和 ITU,對每一個使用這個標準的廠商都收一些費用。
這本來沒什么問題,但要命的是,這些國外大公司嘗到了甜頭,爭先恐后地參與制定下一代“H.265”標準,而且大幅提高收費。
一臺使用 H.265 設備要想不遭受專利訴訟,得在各個專利池里四處交錢,總共至少要掏 4 美元。。。
H.265 的“專利池”
碰到哪個都不行
這一下子超出了大家的承受范圍,導致很多廠商根本做不下去了。
大致在這樣的背景下,中國成立了數字音視頻編解碼技術標準工作組,也就是 AVS(Audio Video Coding Standard Workgroup of China),就是為了繞過這些國際大廠的專利壁壘。
由于 AVS 主要是為了國家層面技術自保,所以對于中國企業的專利收費是極其友好的,很多都是免費或象征性收費。
至 2024 年春天,AVS 已經經歷了 AVS-1 和 AVS-2 兩代,AVS-3 正在緊急編訂中。
騰訊老師傅要沖擊的,就是 AVS-3,確切地說是 AVS-3 中實時語音編解碼技術的那部分。作為中國企業、中國技術人,這不僅是責任,也是榮光。
這是國際上的一些標準源流
但可想而知,既然是標準,制定流程是非常嚴肅的。這次,老師傅的搭檔切換成了標準團隊的專業咖,亞軍。
亞軍解釋了 AVS 標準化的大概流程:
1、作為音頻編解碼標準的主導方,騰訊需要提出足夠的論據證明標準立項的重要性,這叫需求評審。
2、AVS 標準組認可并立項后,會發出技術征集書。
3、AVS 工作組成員會提出各種候選技術提案,連帶自測結果。
4、多次討論迭代并通過第三方測試后,會慢慢形成穩定的標準文檔和完整的參考代碼。
5、最后把參考代碼和技術征集書比對,如果指標全部滿足,大家會表決通過,標準才最終誕生。
這里首先要過的難關,就是“技術征集書”。
標準之所以叫做標準,就是因為它不是一家之言。如果你的技術只適合騰訊家的產品,那肯定不行。
AVS 標準工作組會里有大學教授,有云計算廠商,有互聯網廠商,還有手機等設備生產商。各位師傅都面臨自己行業的實際情況,根據這些提出指標需求。
每次都是大型辯論現場,討論達成一致后,才能最終輸出技術征集書。
征集書像是個“英雄帖”,接下到了大家各顯神通的時候,要拿出自己的“技術提案”來滿足這些指標。
這個是各項細節指標,你感受一下(點擊可以看大圖)
肖瑋把寫送技術提案的工作比作“造炮彈”。
一旦開炮,炮彈離開炮筒,你就再沒辦法控制了。所以你不能放過自己,必須保證把炮彈造到最硬,再打出去。
老師傅先在自己的模擬環境里反復摩擦,又在騰訊會議和 QQ 實戰環境中反復打磨,磨到不能再磨,磨禿嚕皮,終于在?2023 年底整體提交。
這一炮打響了!提案通過了 AVS 組織嚴格測試,成為了穩定的“標準基線版本”。
這意味著:后續的迭代,都會在騰訊的“參考代碼”上微調。
微調的工作一點兒都不輕松。
標準文檔堪比學術論文,就連平時大家不太注意的每一章概述部分都要字斟句酌,甚至因為一個標點符號要用分號還是逗號,大家都會爭執。
雖然極端繁瑣,但亞軍知道這種爭論是有意義的。
因為標準一旦形成,它就會被成千上萬廠商采用、執行。每個標點都必須經得起歷史的考驗。
到了 2024 年6月,滿足技術征集書的標準交付件終于成型,很快大家就進入表決環節,各家企業代表此刻一致通過,這個新的音頻編解碼標準呱呱墜地,它就是——AVS3P10。
掌聲熱烈而漫長。
從 2019 年起心動念,到2022年落地實戰,到 2024 年成為 AVS 標準,這條路騰訊老師傅們走了五年。
“其實在業內,一般都是五年做標準,五年做推廣,總共要十年。我們的標準快了一倍,已經算非常順利了!”肖瑋說。
雖然不會把比較作為目的,但天籟實驗室還是會積極關注國際上的同類技術進展。
事實上,國際上其他標準組織也在進行類似的工作。
但從目前進展和完成的情況,AVS3P10 為代表的中國標準不僅在標準進度上做到領先,在很多指標上也是領先的。
肖瑋的話雖然克制,但難掩驕傲。
他值得驕傲。
從專利自保,到分庭抗禮,到自主創新達到國際頂尖,中國技術人用二十幾年的時光,穿越了前車卷起的漫天黃塵,闖出了自己的天地澄澈。
(八)漫長歲月里的款款聲波?
“手藝”是個古早的詞匯,它是工匠手里的刻刀,也是電流中奔騰的代碼。
過去幾年,天籟實驗室這群師傅的手藝不僅撐住了騰訊會議真實的 4 億用戶,還煉成了惠及 14 億人的技術標準,堪稱“爽文”典范。
但我卻愿意提示其中“克制”的力量。
技術人最容易犯的錯誤,是篤信某種技術。
2016 年 AI Codec 橫空出世,如核爆一樣在技術圈炸開,讓傳統的音頻編解碼黯然失色;它太優雅,就像電動汽車一樣,用幾臺電機和一盤電池就能替代過去上萬個零件組成的燃油機械。
于是,很多年輕的師傅激進地轉向“純 AI 派”,他們的理由很充分:具有底層先進性的 AI 模型定能江山一統,實現“技術革命”。
但大多數時候,決定“做什么”是簡單的,但決定“不做什么”卻要依靠經驗、智慧以及強大的自制力,是更難的。
正如保守主義哲學家家埃德蒙·伯克所說:“先例是人類的學府,具有包容一切的氣度和改善一切的才能,才是真正的改革家。”
如此看來,天籟實驗室的老師傅至少做對了兩件事:
第一,等待良機:在看清技術路線之前,寧可保存實力,也不盲目在新技術上撲入重兵。
第二,尊重先例:在 AI Codec 烈火烹油的時候,依然對傳統音頻編解碼技術敞開大門。
事實證明,越是技術突飛猛進的時代,越需要有老師傅抱持這種看似冰冷,實則溫熱的“保守主義”態度。
回看中國的音視頻編解碼技術走過的道路,也是如此。
肖瑋回憶起十幾年前自己初次參加國際標準討論的情景:
當時他感覺到巨大的反差。其他國家的代表團都是連鬢絡腮白胡子,一看就是干了多半輩子的老法師;再看中國代表團,清一色都是二十來歲的毛頭小伙子、小姑娘。
一個國外老哥專門走過來問肖瑋:“How old are you?”
外國老哥解釋,在他們國家,必須是在行業里摸爬滾打二十年以上的技術人,才有資格參與這種規格的標準討論。
肖瑋有點兒不好意思:在我們國家,二十年前整個行業才剛剛起步。。。
不過從那以后,就是這些小伙子小姑娘,一直在代表中國出席各種國際討論,他們為全世界的音視頻技術添磚加瓦,積沙成塔,以手中的代碼而非年齡贏得世界的尊重。
如今他們雖還沒夸張到白胡子的年級,但確實都已更加成熟。而在他們身后,正站著更多年輕的中國技術人。
一代代人,就這樣前行,不疾亦不徐。俯瞰他們的腳印,是漫長的歲月里一串聲波。
而我們的歷史,也在這樣的聲音里,滾滾向前。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)