唐家渝:多模態將會是大模型的未來發展趨勢

唐家渝:多模態將會是大模型的未來發展趨勢
2023年09月15日 15:03 市場資訊

  “2023中國AIGC產業發展論壇”于9月4日在北京召開。生數科技聯合創始人兼CEO唐家渝出席并演講。

  以下為演講實錄:

  大家下午好,非常榮幸有機會和大家分享一下我們在大模型領域一些探索和實踐工作。 

  無論是學術界還是工業界,目前的一大共識就是多模態將會是下一波發展的趨勢,無論是人類在數字世界進行交流,或者在物理世界里進行交互,傳遞的信息一定是多模態的,比如我在這里作分享,既有圖像信息也有語言信息。在這樣的背景下,我們認為多模態領域一定會迎來大的技術突破,并帶來現象級的產品出現。

  目前,圖像、視頻、3D等多模態生成領域都逐步顯現出商業應用潛力,比較有代表性的像Midjourney,相信在座的來賓已經使用過,現在AI已經可以生成非常高質量且美觀的圖像。再比如視頻,已經有一些基于描述生成視頻片段的產品,相信大家也有所了解,雖然在生成的連續性上仍有一些問題,但是已初步能做到從無到有生成完整的片段。3D生成目前仍處于技術探索的初期,但也已經基本實現了從無到有的生成,包括能在元宇宙的一些小場景中運用起來。

  總體可以看到,多模態的融合發展正在顛覆掉傳統的內容創作模式,比如這里列舉幾個案例,像AI電影預告片,前段時間國內用戶做的《流浪地球3》的AI預告片火爆網絡,就是利用Midjourney生成大量的概念圖,再基于圖片生成的視頻。包括國外機構Everypixel Journal發布的統計顯示,自去年以來,使用文本生成圖像算法創建的圖像已超過 150 億張,相當于攝影師從1826年到1975年150 年間所拍攝的圖像數量,從整個人類的產生數量發展史來看,這是一個非常可觀的數字,而且仍然呈現指數上升的趨勢。

  多模態應用潛力巨大,但它的發展仍處于爆發的早期,還有一些待解決的關鍵性問題,包括高質量的海量多模態數據如何獲取,不同形式的數據如何去統一表示,如何提取不同模態數據的特征和暗藏的知識讓模型訓練學習等等。更重要的是如何設計統一的訓練模型,把不同模態間的跨模態知識進行融合學習,以避免信息損失。就像人類智能體一樣,如果失去了聽覺或觸覺,那對事物的理解一定是不夠全面的,所以從智能的目標來說,多模態的發展需要走向統一化。

  基于對多模態發展的前景預測和技術研判,我們打造了一套生成式多模態大模型的框架,覆蓋從底層基礎層、模型層到上層的產品應用、場景落地,在商業模式上,我們主要面向2C場景開發個性化的內容生產工具,打造新型的內容消費社區,同時也通過MaaS的形式提供模型服務能力。

  目前,我們在模型能力方面已經實現了一系列領先創新成果,比如圖像生成方面,基于一個底層模型具備多種高質量風格的圖像生成能力;視頻生成方面,通過指定的指令能夠對視頻進行逐幀級的可控視頻編輯和風格遷移,我們在視頻的連續性、精確度、畫面真實性上都實現了業內領先的效果。3D生成方面,我們能夠基于文本描述自動生成3D資產,并支持導入現有的3D建模工作流,大大降低3D資產創建的時間成本。此外我們還支持基于三視圖生成3D模型,在分辨率和精細度上實現了較好的效果突破。

  這些核心能力主要來自于我們底層模型的大量原創性工作,包括骨干網絡設計、高速采樣、多模態訓練等。今年3月,我們推出從0到1自主研發的多模態擴散大模型UniDiffuser,基于一個Transformer網絡架構實現圖文模態之間的任意跨模態生成。目前,我們把比較初步的小型版本進行了開源。值得一提的是,這也是全球首個通過一個底層網絡打通多個模態的大模型,而不是將多個跨模型模型做簡單的組合集成。

  從公開的學術指標來看,相比業界已有的主流模型,我們實現了更好的效果,同時我們內部從產品端也建立了一套完備的評價體系,包括語義理解度、美學性等等。這塊我們可以非常自信地說,現在我們的生成效果處于國際第一梯隊。

  更直觀地比較,我們現在的生成大概在MidjourneyV4-V5的水平,預計到年底的時候可以到Midjourney最新版的生成水平。

  底層核心基于底層的圖文模型,我們通過知識蒸餾、小樣本訓練等進一步覆蓋3D和視頻生成能力。直觀理解,比如在做3D資產生成的時候先生成3D多視角的2D圖像,再重建出3D模型。視頻類似,先生成視頻關鍵幀,再做連續時序生成。因為底層圖文模型效果出色,加上我們提出了諸多具有突破性的生成算法,我們在3D、視頻生成場景中也實現了領先的效果。

  最后介紹下我們團隊,我們是清華大學朱軍教授帶領的團隊,團隊此前一直在做擴散概率模型等生成式AI領域的研究,已經有近二十年的研究深耕。現在公司團隊近50人,團隊成員大多來自全球知名高校和頂尖科技公司,包括多位生成式算法研究領域專家、大模型訓練專家、后臺工程化專家等等。目前,我們團隊成員在相關領域近兩年發表頂級期刊論文近30篇,曾獲機器學習頂會ICLR 2022杰出論文獎,提出的全球最快采樣算法Analytic-DPM、DPM-Solver等成果目前也被廣泛應用于DALL·E、Stable Diffusion等明星項目。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:梁斌 SF055

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 09-22 中集環科 301559 --
  • 09-21 浩辰軟件 688657 --
  • 09-19 三態股份 301558 --
  • 09-18 愛科賽博 688719 69.98
  • 09-14 萬邦醫藥 301520 67.88
  • 新浪首頁 語音播報 相關新聞 返回頂部