?自象限原創
作者丨程心
2023年,大模型“救活”了很多行業,其中最為反轉的,就是把虛擬數字人(以下簡稱虛擬人)從活死人墓里拉了出來。
還沒開年,在2022年火爆一時的元宇宙就已經快速遇冷,虛擬人作為元宇宙的遺孀也難逃霜凍的命運,不少虛擬人初創公司開始進入融資難、產品無法落地的艱難階段;甚至百度、騰訊等大廠們,也開始裁撤了曾重金打造的希壤和智影等專門為虛擬人制作而生的平臺。
正當所有人都以為,虛擬人將經歷一段漫長的寒冬時,大模型來了。
大模型來了,首先意味著元宇宙之外,又有了新的概念和故事;但更重要的是,大模型的能力也確實對虛擬人技術產生了深刻的影響,在元宇宙時代未能解決的成本高昂、制作周期緩慢、門檻過高等問題,也都開始被大模型逐個擊破;同時,大模型讓虛擬人能夠真正開始規模化落地,融合進產業,這邁出了產業鏈成熟的關鍵一步。
但這一年仍然是混亂的。
年初,起死回生的虛擬人開始瘋狂找落地場景;年中,聞到商機的代理商們,帶著成千上萬虛擬人涌進直播間,開始披著技術的外衣瘋狂割韭菜,這也導致企業客戶一時間對虛擬人望而卻步。
年底,當泡沫逐漸消失、技術逐漸成熟后,整個市場開始回歸冷靜,產業鏈開始分化,上中下游的分工慢慢清晰,各行各業也不再追求形式而開始真正思考,虛擬人究竟能帶來什么?
毫無疑問,虛擬人最重要的場景并不是當下所經歷的這一切,它是現實世界和虛擬世界的超級入口,是人生游戲中真實的NPC,但想要達到這個目標,無論是技術還是生態,都還尚早。
在年尾之際,我們將從技術、產品、商業化三個層面,與多位廠商共同復盤2023虛擬人這一年。
大模型讓虛擬人“活”了
在大模型到來之前,虛擬人一直避不開成本高昂的問題。
2022年的時候,虛擬人通常都是一對一定制,價格也從上萬元到幾十萬不等,但即便如此,虛擬人的效果也不盡如人意。
某知名酒業公司品牌負責人告訴「自象限」,該公司曾嘗試將虛擬人應用在機場大屏的廣告中,但即便找了國內知名大廠,并花費近60萬元之后,落地的效果還是“一眼假”。
成本高昂和落地效果不佳的直接原因,自然是技術不成熟。
在大模型之前,虛擬人的制作大多由真人驅動,即需要專門的演員戴上設備,通過動作捕捉技術進行長時間的數據采集才能完成3D建模。這種形式一是具有高昂的人力成本,其次則是制作周期漫長。
一位虛擬人從業者向「自象限」表示,一個虛擬人的數據采集需要專門的制作團隊制作數月才,在這之后,還需要專業的技術人員專門進行調優。
這自然直接增加了虛擬人的制作成本,某虛擬人廠商告訴我們:“找演員拍攝,幾乎是賣一個賠一個。”
在真人驅動之外,也有虛擬人依靠算法驅動。但這類虛擬人前期需要大量的數據訓練各類驅動模型,而且最終效果還要受語音合成、NLP技術、語音識別、CG渲染等技術的影響。
這類虛擬人盡管在大模型之前已經在某些特定方向有了相對穩定的技術,但仍然缺少一個強有力的“大腦”,將各種模塊統一起來,讓虛擬人達到理想的效果。
除此之外,在大模型之前,靠傳統算法驅動的虛擬人通常依靠預設的參數和有限的模型進行訓練,但在大模型之后,大模型的生成能力則幾乎讓虛擬人擁有了無限的訓練參數。
▲圖源:中航證券研究所
如今,大模型已經作為一種生產能力滲入到整個虛擬人制作的產業鏈中,這直接推動了虛擬人制作成本的大幅下降,從之前的十萬級下降到千元左右。制作周期也從之前的動輒幾個月,縮短到小時級別。
國內最早一批布局AI數字人的「硅基智能」告訴「自象限」:“從上線起,硅基的數字人形象克隆產品統一定價為8000元,通過標準化的價格和服務來擴大市場份額,目前市場上的售價參差不齊,從幾百到幾千不等,新的一年,我們在思考把8000元的門檻砍掉,進一步降低成本,走全新的商業模式。”
降本增效,是大模型帶來的第一層改變。大模型技術不僅直接降低了虛擬人的制作難度,更讓虛擬人看上去更像人。
比如,大模型改變了過去虛擬人3D建模依靠CG技術的傳統方法,轉而使用視頻大模型的制作工具,通過算法高效生成3D模型,這讓虛擬人的面部細節更加逼真,面部表情和唇形的同步效果也有所提高,讓虛擬人在說話時看起來更自然。
除此之外,大模型還在交互方面提高虛擬人的能力,讓虛擬人可以從單項輸出到與人進行事實互動。
根據 IDC 咨詢,根據虛擬人的自動化水平,可分為 L1-L5 階段。如下圖所示,目前我們正處于L3-L4的中間階段,在直播間或者虛擬人互動的設備中,用戶通過文字就能與虛擬人進行實時交流和對話,以用來介紹產品、替用戶解決問題等等。
▲圖源:IDC報告截圖
一位2D虛擬人廠商同「自象限」提到:“目前相對智能化的虛擬人已能實現直播互動。這背后的技術原理在于企業事先建立的一個模板庫或知識庫,一旦在直播中觸發了相應的關鍵詞,虛擬人就能實時調取里面的內容進行回答。”
但從效果來看,這項技術還不夠成熟,有用戶反饋到:“在直播間問的問題,過十分鐘虛擬人才會回復,早就沒耐心等在直播間了。”
最后,AIGC的生產能力,也讓虛擬人開始有了“靈魂”。
商湯智能研究院梳理了AI 數字虛擬人的三大特征,包括多模態交互、深度學習能力和AIGC 生產力。
相較早期虛擬人制作對人工依賴較高,AIGC 大幅提升了 AI 虛擬人的制作效率,并降低了制作門檻;大模型讓虛擬人能夠深度學習更多知識和技能,并識別包括圖片、視頻、音頻在內的多模態內容,為虛擬人與真人自然交互的實現提供了基礎。
▲圖為自象限原創,轉載請注明出處
很大程度上,大模型解決了虛擬人在解決了虛擬人在自然語言理解和內容輸出上的能力,比如在直播場景下,虛擬人可以依靠大模型的生成能力很好地完成在口播內容、腳本甚至劇本等方面的劇本撰寫工作,這很大程度降低了產業鏈的門檻,讓虛擬人不只是一個形象,更成為一個生產工具。
目前,部分虛擬人廠商已經開始向整個生成鏈條延伸,比如“一鍵生成視頻文案”、“一鍵生成講解視頻素材”、“多語言快速翻譯”等等,從虛擬人的技術提供商轉變為更有整體性的解決方案提供商。
微軟小冰CEO李笛更是提出,虛擬人未來是混合模型。
「自象限」認為,下一階段虛擬人將進入“虛擬人+”的階段,虛擬人+RPA在企業內部打造數字員工;虛擬人+AI Agent,在C端打造陪伴型機器人;虛擬人+AR/VR,在3D空間打造可見的游戲NPC;虛擬人+具身智能,讓人型機器人有了靈魂。
若將多種技術進行全面融合,虛擬人才真的能夠成為“入口級應用”。屆時,比拼的賽點將是虛擬人的開放程度、生態建設、場景拓展等一系列綜合能力。
虛擬人,走向2D還是3D?
隨著大模型帶動的虛擬人爆發,市面上虛擬人類型也逐漸豐富。從2D到3D,從真人到算法,已經亂花漸欲迷人眼。這背后的本質,其實是市場對虛擬人的分類標準不同。
但「自象限」整理了一些常用的標準和分類后發現,虛擬人在產品落地方面其實更多是依靠視覺的不同來進行分類,即2D虛擬人和3D虛擬人。而從技術、產業鏈和應用場景來看,2D虛擬人和3D虛擬人已經走出了兩條涇渭分明的道路。
▲圖為自象限原創,轉載請注明出處
本質上,虛擬人的最終目標無限地接近于真人的形象,因為只有這樣,虛擬人才能帶給用戶和人一樣的感受和互動體驗。拿這個標準來看,3D虛擬人更契合這個目標,也是未來應用方向。
但作為對比,2D虛擬人的制作成本更低,應用落地更簡單,能夠在短時間內帶來大規模商用。
▲左圖為2D虛擬人,右圖為3D虛擬人
從技術角度來看,兩種虛擬人背后搭建的技術架構也完全不同。
2D虛擬人更關注面部表情、口型說話的語氣;3D虛擬人則更關注整體的協調性,說話時肢體的動作,以及虛擬人與空間的幾何關系等等。
具體而言,2D虛擬人可使用圖片處理器快速生成,3D虛擬人則需要建模、動畫、渲染等環節;2D虛擬人需要的數據量較小,對算力要求不高,3D虛擬人則剛好相反;2D虛擬人對精細度要求不高,但3D虛擬人卻要達到高仿真的擬人效果。
技術上的差異導致3D虛擬人的制作成本要遠超2D虛擬人。
彼時大熱的3D虛擬人柳夜熙的制作投入高達百萬元。所以在上一波元宇宙潮中,3D虛擬人作為主角博得了熱度,但離飛入尋常百姓家還差了一大截,因此2D虛擬人抓住機會,恰好填補上這一需求的空白。
根據市場調研,目前,百度、商湯、魔琺科技等公司涉足3D虛擬人領域;騰訊、京東、快手、即構科技、萬興科技、一覽科技在2D虛擬人方向更新產品和服務,還有以方糖星球、真視通、易觀國際、天璣科技為代表的企業以虛擬空間為切入,完善虛擬人配套設施。
深耕3D虛擬人的廠商魔琺科技告訴「自象限」,魔琺科技全棧技術主要包含四大維度,分別是AIGC 3D寫實形象,AIGC 3D動畫、AIGC 聲音和AIGC 文本,在有言產品中,還涉及AIGC 3D運鏡和AIGC燈光等技術,是一個極為復雜的綜合考量。
而針對3D虛擬人的難點,魔琺坦言當下生成技術在逐步攻克中,但高質量的3D數據,是行業非常稀缺的資源,這也是3D虛擬人的壁壘之一。
AIGC文生視頻需要依托高質量的3D訓練數據,才能生成穩定有幾何關系和空間關系的視頻,2D虛擬人廠商需要從0到1構建3D數據幾乎不太可能。
魔琺科技認為:“3D虛擬人是一種人物形態載體,能夠使用起來,就需要以產品化形態落地,去解決企業實際問題。”
這意味著,虛擬人廠商不僅需要提供3D虛擬人產品,更需要與企業的業務場景相結合,給企業一定的自由度,打造3D虛擬人的制作平臺。
目前魔琺科技打造了端到端的超寫實3D虛擬人工業化產線及“3D虛擬人的AIGC平臺—星云平臺”,為企業提供系列生成工具,企業根據自身需求,能夠更加靈活的調整虛擬人的細節、結構和適配的使用場景。
商湯也基于日日新大模型,打造了如影虛擬人制作平臺,基于在視覺、語音領域積累的3萬個算法模型,虛擬人能快速識別、反應,與用戶建立起對話關系。并且,事后,虛擬人也不會“失憶”,繼續學習迭代。
相比之下,2D虛擬人的制作流程就簡單的多。某2D虛擬人廠商對我們介紹到:“目前2D虛擬人制作有兩種方式,一種是請真人錄制,然后幫其定制形象。一種是從用戶提供的視頻中提取形象,再用到各種場景中。市面上2D虛擬人定制工具的邏輯基本一致:輸入文案素材,就能生成一個簡單的虛擬人形象。”
大模型對2D虛擬人提效效果顯著,AI可將傳統視頻制作流程中人工處理時間大幅減少90%,模型訓練時間減少60%,只需48小時以內即能完成各類定制數字人的訓練工作。目前文生AI數字人視頻的時間在數分鐘左右。伴隨技術的進步,未來文生視頻的效率還將持續提升。
大模型把虛擬人制作的成本打下來了,也把虛擬人的價格打下來了。
因為便宜,2D虛擬人開始鋪天蓋地的走進直播間、短視頻,不少大V開始有了數字分身,劉潤、周鴻祎相繼亮相了自己虛擬人分身,它們在直播間里7×24小時、全年無休地介紹著產品,無論大企業還是中小商家,對虛擬人的熱情空前高漲,而這也吸引了大量魚龍混雜的代理商和套殼廠商,沒有實質技術,只是打著科技的幌子招搖撞騙。
今年7月-8月,小紅書、閑魚、淘寶、抖音等平臺都開始陸續出現了“99元”、“299元”、“499元”的虛擬人,據「自象限」調查,這些賣家往往通過各類成功案例吸引用戶下單,但下單后不管使用不包售后,通過一個有一個“圈套”,只為“賣”,不為“用”,虛擬人的熱度就這樣被炒得虛高。圖省事的買家以為自己趕上了風口,結果吃了大虧;想撈快錢的賣家趁機而入,順利收割了第一批韭菜。
一位品牌商家對「自象限」講到:“虛擬人最火的時候,采買了虛擬人主播,前幾次直播效果都不錯,前三個月可以盈虧可以勉強打平,今年七八月份光電費就一萬多,加上給虛擬人主播投流,虧了10萬左右。”
行業魚龍混雜,讓很多原本想嘗試的企業望而卻步。不過,這樣的情況到了年底,通過監管政策的密集下發和平臺收緊了虛擬人直播的條件,混亂的現象暫時得到了控制,行業又重回冷靜期,開始真正思考,虛擬人,究竟能做什么?
爆火虛擬人,花式商業化
事實上,直到今年,數字人才真正步入了商業化的正軌。
硅基智能創始人兼CEO司馬華鵬曾在采訪中提到“2019年推數字人,免費都沒人用。”而到今年,我們也感受了一些新的變化,“去年我們克隆了十幾萬數字人,有些客戶不愿意公開講自己在用AI協助工作,但今年大家都愿意說了。”
“ChatGPT出現之后,整個行業的心態發生了非常大的變化。”
2023年,虛擬人的商業模式分化出了3種較為成熟的模式:
第一種是元宇宙時期為主的IP型,產品定位多位偶像、娛樂、科研教育等方面。以此衍生出了虛擬偶像、數字航天員、品牌代言人等一系列角色,將偶像身份具象化,通過IP打造和運營,如柳葉熙、洛天依等;
第二種則是功能型虛擬人,也叫服務型虛擬人,以數字員工為代表,虛擬主播、數字客服等在金融、文旅、零售、直播等領域,與人的工作相輔助,降低企業成本,提供自動化、標準化和智能化的服務;
第三種則是正在探索的虛擬分身(Avatar),也稱虛擬空間身份代理,為玩家打造特定的游戲身份、虛擬演唱會觀眾、永生形象等,多應用在游戲、VR、元宇宙中,是虛擬空間和現實空間的交互入口,玩家不僅能擁有虛擬形象,更能推動虛擬內容的生產,也是虛擬人最終要達成的狀態。
根據沙利文、頭豹研究院等數據顯示,2023年多個品牌都在探索如何用虛擬人產生更大的價值,其中諸如虛擬歌手、明星克隆、消費品牌的虛擬代言人,迅速風靡網絡。
郭德綱說英語、Taylor swift講四川話,AI“復活”了張國榮和梅艷芳,也替一眾歌星開啟了線上演唱會。短視頻的玩梗和傳播,加速了虛擬人進入到大眾的視野中,而C端的熱情同時也映照著B端的需求。
年初,抖音大V劉潤打起了數字人短視頻的第一槍;年尾,坐擁1200萬粉絲的科普博主嚴伯鈞開始在多個社交媒體平臺發布由硅基智能制作的數字人短視頻。
嚴伯鈞在接受采訪時也講到:“當我第一次發布AI制作的內容時,就有觀眾敏銳地指出:‘你為什么不眨眼?’事實上,從動作、表情、語言到思想,AI正在不斷地學習和模仿我的每一個特征,這是一個持續進化的過程。”
▲圖源:受訪企業提供
據了解,2023年8月,公司聯合明星MCN公司謙尋成立了合資公司謙語智能,發布了AI數字人直播解決方案,為謙尋旗下主播打造數字分身,在主播直播的8小時外,替主播繼續直播,延長直播時長。
而魔琺科技則更注重虛擬人本身的能力,某醫療機構營銷中心,每月需要數千條話題、熱點、科普類視頻用于運營各段視頻平臺及營銷投放,現有幾十人的團隊每月產能幾百條。
通過使用魔琺有言一站式AIGC視頻創作平臺,可以將圖文內容一鍵生成3D視頻,免去了視頻拍攝,制作等諸多環節,使用有言后,該營銷中心解決了產能不足的問題,實現獨立完成全平臺視頻矩陣運營。還能創作大量優質的科普內容用于投放獲客,實現了優質醫療科普視頻的快速、規模化的量產。不僅團隊產能大幅提升,獲客ROI也隨之提升。
更重要的是,2023年,虛擬人開始走向千行百業,從影視、娛樂等領域走向金融、文旅、教育、政企等數字化深水區。
▲圖源:騰訊《數字人產業發展趨勢報告》
舉幾個例子,在虛擬人+教育領域,網易有道發布AI口語老師,該老師為學生提供開放式的聊天場景,更符合真實的口語聯系環境,并在對話結束后快速生成結果報告;科大訊飛發布訊飛星火認知大模型,涵蓋了批改語文和英語作業,模擬口語老師實景對話等。
在虛擬人+政務方面,目前廈門、深圳、江西等地方紛紛引入數字員工,工作內容包括多語種的政策解讀、為群眾提供“邊聊邊辦”的數字政務服務,通過虛擬人智能推送服務入口,完成業務咨詢、資訊推送、服務引導等等政務服務。
2024年,有部分廠商也在逐步試水數字人+跨境電商。硅基智能告訴我們:“由于海外的多語種對短視頻和直播有很大的門檻,我們開發了硅語翻譯小程序和專業版的Anylang,可以通過實時翻譯結合數字人解決這個問題,幫助跨境電商企業一站式出海。”
總的來說,在經歷了2023年的動蕩期之后,虛擬人無論是的技術、產品還是行業格局,都走向了一個新的節點,2024年,隨著多模態大模型的成熟,虛擬人可能會再邁進一個臺階,同時在千行百業中的逐步深入,也將打開更多數字化的大門。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)