2023中國AIGC創(chuàng)新發(fā)展論壇于2023年9月4日在北京召開,加拿大工程院外籍院士、HiDream.ai創(chuàng)始人兼 CEO梅濤先生出席并發(fā)表演講。
以下為演講實錄:
2023中國AIGC創(chuàng)新發(fā)展論壇于2023年9月4日在北京召開,加拿大工程院外籍院士、HiDream.ai創(chuàng)始人兼 CEO梅濤先生出席并發(fā)表演講。
首先非常榮幸來到服貿(mào)會的現(xiàn)場,跟大家一起分享在大模型時代創(chuàng)業(yè)的一些心得,也非常開心見到老朋友、認識新朋友。
由于今天的演講時間有限,我先拋出三個簡要觀點。第一,在大語言時代GPT架構(gòu)已經(jīng)成為工業(yè)界一個標(biāo)準(zhǔn)的framework。也就是說,在大語言模型的環(huán)境下,下半場基本上比拼的是商業(yè)化落地、應(yīng)用以及資源。第二,大模型已經(jīng)從單一模態(tài)迅速進入到多模態(tài),也就是說從原來的單一語言模態(tài)進化到文本、圖片、視頻、3D的多種模態(tài)的生成和生產(chǎn)。但是在這個領(lǐng)域里仍然沒有形成一個標(biāo)準(zhǔn)化的工業(yè)框架。大家也許聽說過在圖片生產(chǎn)領(lǐng)域用得比較多的是Diffusion Model(擴散模型),3D用得比較多的是NeRF(一種基于神經(jīng)網(wǎng)絡(luò)的3D 重建技術(shù)),但我們還沒有一個統(tǒng)一的框架能把所有的多模態(tài)內(nèi)容形成工業(yè)化標(biāo)準(zhǔn)。因為這其中有很多技術(shù)上的不確定性,正因如此,才給到我們初創(chuàng)企業(yè)更多的機會。第三點,雖然我們HiDream.ai成立只有不到半年,但是我們正在以中國企業(yè)的創(chuàng)新加速度進入這個市場,這幾個月來在小步快跑、迅速迭代。我們的目標(biāo)是在年底達成百億級的多模態(tài)大模型,目前在 3 個月的時間內(nèi),我們自研大模型的量級已經(jīng)超過 60 億。
剛才給大家播放的短片中所包含的所有視頻、圖片、運鏡都是由我們 HiDream.ai 的創(chuàng)作工具 Pixeling(www.hidreamai.com) 生成的,沒有用到任何第三方軟件。做這樣一個視頻概括起來包含這幾個步驟:腳本、分鏡、關(guān)鍵幀、鏡頭以及視頻的合成。在過去需要較高的人力、時間和金錢成本。但今天通過AIGC創(chuàng)作工具已經(jīng)可以讓1-2 個學(xué)生在一周內(nèi)做好。這就是AIGC,并不是說要取代現(xiàn)在的人工,而是真的要提高效率,降低成本,提升用戶體驗,從而釋放用戶的想象力和創(chuàng)造力。雖然這個視頻的質(zhì)量還有待提升,AI 生成工業(yè)級的影片還有很長的路要走,但我們做的這樣一個實驗讓我們看到了AI 在輔助內(nèi)容創(chuàng)作領(lǐng)域更多的可能性。
AIGC已經(jīng)迅速從單一模態(tài)進入到多模態(tài)時代。這里有兩個例子,第一個例子是美國一家雜志用 AI 生成圖片做雜志封面;另外一個故事是大家所熟知的,用 AIGC 工具生成的作品能參加美國的攝影比賽并獲得大獎。這兩個例子所代表的 AIGC 創(chuàng)作當(dāng)然引發(fā)了很多爭議,但我今天想講的并不是爭議,而是講未來。
我問過GPT-4一個問題,在文藝復(fù)興時期人類究竟產(chǎn)生多少件作品?它告訴我人類可能產(chǎn)生不到一百萬張各種各樣的作品,留存到現(xiàn)在的可能不到二十萬件。在過去幾年大家可以看到人類因互聯(lián)網(wǎng)時代的加持,每天生產(chǎn)的圖片不計其數(shù),每年產(chǎn)生的圖片在1700 到 1800億張這個范圍。而AIGC的圖片生產(chǎn)量從2021年到現(xiàn)在已經(jīng)超過300億,到2026年很有可能AI 生成的圖片數(shù)量會超過人類創(chuàng)作的圖片數(shù)量。這個是很“恐怖”的事情,不僅是對算力的大量需求,對算法也有大量需求,我們作為創(chuàng)業(yè)公司要抓住這一波增量去賦能在做的事情。
我們也仿照著自動駕駛,把 AIGC 分為L1到L5的幾個等級。我們認為目前AIGC還處于L2-L3的過渡階段,多模態(tài)時代下,我們的目標(biāo)是希望能夠拿到更多的多模態(tài)數(shù)據(jù),通過一個很強大的框架能支持不同種類的內(nèi)容生成。
其實很多人會問,如果GPT能做單一模態(tài)的話,是不是也能把多模態(tài)的事情給做了?其實答案是否定的。首先是視覺生產(chǎn)的encoder 很難做好。文本里面單詞跟單詞之間有空格,天然就形成一個token,每個token的含義和語義是非常明晰的。但在視覺領(lǐng)域,對于圖片和視頻來說,沒辦法非常清晰地定義一個token。第二個難點就是decorder,今天視覺生產(chǎn)里面用得最多的是Diffusion model(擴散模型),天花板蠻低,目前最大的生成式模型大概也就是30億-40億的參數(shù)規(guī)模。第三個難點是alignment(對齊),今天在訓(xùn)練視覺模型遇到一個最大的問題就是數(shù)據(jù)量的問題,我們高質(zhì)量的文本和圖片的配對、或者視頻和圖片的配對。
這三種原因造成AI生成圖片的一些不足。首先是細節(jié)問題,比如人臉、微表情、手指,在生成動物的時候也發(fā)現(xiàn)有這樣的細節(jié)問題,也就是所謂的“恐怖谷”效應(yīng)。第二個問題剛才很多嘉賓也講過,因為大模型的量級高達幾千億,不知道怎樣更好地進行人機對話,怎樣更好地去寫 prompt,甚至誕生了 prompt engineer 這樣的職業(yè)。如果 prompt 寫得不夠好,就無法讓 AI 更好地理解人的意圖,也就不能生成讓人滿意的作品。第三個挑戰(zhàn),也是很多的客戶提到的問題,就是可控性。在生成的時候,不管是語言模型還是視覺模型,最大的問題就是IP、SKU不能變。在保證IP 和 SKU百分之百不變的情況下,還要生成一個融入感特別自然的圖片,是非常大的挑戰(zhàn)。
今天我們看GPT的發(fā)展,其實一直都還沒有到天花板,有一天GPT把所有人類高質(zhì)量的文本讀完以后,可能可以看到它的天花板在哪里。視覺AIGC的天花板其實也蠻高的,今天相當(dāng)于GPT-2的時代,Stable Diffusion的模型參數(shù)是在30-50億。HiDream.ai雖然成立只有3個月的時間,但是我們已經(jīng)做到60億的數(shù)據(jù)量級,我們希望探索一個基于視覺的多模態(tài)底層大模型,能讓視覺 AIGC從GPT-2時代進入到GPT-3時代。我個人堅信,因為人類的圖片、視頻內(nèi)容非常豐富,理論上來說我們未來的視覺大模型要遠遠大于語言模型,當(dāng)然視覺大模型的挑戰(zhàn)也會更大。
下面給大家舉幾個例子,我們的產(chǎn)品叫Pixeling,已經(jīng)可以生成像品牌調(diào)性、版權(quán)圖片、材質(zhì)特寫、模特換裝、商品攝影等效果。這就是剛才講的,我們已經(jīng)可以用正確的prompt產(chǎn)生一個非常有3D感覺的剪紙、帶有中國文化的陶瓷、甚至于大場景效果。
講到落地,我們今年會更關(guān)注在科技領(lǐng)域的落地,包括現(xiàn)在正在深耕的電商行業(yè)。電商每年都有幾十億的SKU要更新?lián)Q代,每一個SKU都要很多張的詳情圖片。用戶提供的SKU圖片,通過結(jié)合用戶給的prompt和給定的背景圖可以生成與背景無縫銜接融合的圖片。還有一種方式,用戶只需要給到 SKU圖片,不需要給到背景圖,我們就可以把商品一鍵生成在不同的背景中,幾秒鐘就可以做完。前段時間我走訪了幾十家電商,他們的設(shè)計師非常痛苦,因為生成圖片的流程非常繁瑣,痛點非常多,用國外的圖片生成工具非常不方便,但是用我們的Pixeling創(chuàng)作工具就可以很快完成。除了文字生成圖片,Pixeling還可以將文字或圖片生成視頻,比如女孩子蕩秋千這個視頻,我們可以把整個的前景和背景都做到很融洽的互動。椰子樹的樹葉隨著秋千也在做擺動。
當(dāng)然我們也參加了一個小小的客觀評價,香港中文大學(xué)有一個數(shù)據(jù)集評測標(biāo)準(zhǔn),有3200個prompt在四個風(fēng)格中進行評測,可以看到我們HiDream.ai跟目前最好的Midjourney v5的差距已經(jīng)很小。有幾個關(guān)鍵指標(biāo),第一個是圖片和prompt之間的語義相關(guān)性,即生成的圖片到底是否是用戶想要的。第二個是美感,即生成的圖片到底是不是非常有質(zhì)感、高逼真、高清晰。第三是人的主觀評測,當(dāng)一個人在面對不同工具生成的結(jié)果時,他更傾向于認為哪張圖片更好看。從這個客觀的評測中大家可以看到,雖然HiDream.ai 剛剛成立不到半年的的時間,但進展還是非常快的。
我們的產(chǎn)品Pixeling已經(jīng)上線,大家如果有興趣可以申請體驗(www.hidreamai.com),在 Pixeling 上嘗試用文字生成圖片、文字生成視頻,以及視頻編輯功能,比如對用戶上傳的視頻做風(fēng)格遷移、對視頻中的一些元素進行修改,生成新的視頻。
這就是我今天的分享,希望能跟各位一起共建AIGC生態(tài),這樣才能夠讓中國的企業(yè)能在激烈的環(huán)境下生存下去,謝謝。
責(zé)任編輯:梁斌 SF055
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)