“2023中國AIGC產業發展論壇”于9月4日在北京召開。深思考人工智能機器人創始人兼CEO楊志明出席并演講。
人機交互從單模態到多模態,從人“屈從”機器到機器理解人類、對話即系統
AI技術的發展有三個階段,從AI 1.0機器學習模型,到2.0深度學習模型,再到AGI目前的這個階段,也就是深思考人工智能和業界共同在探索的基于生成式大模型來處理各種任務。
楊志明表示:“在人機交互這個領域中,我認為:發展軌跡是從單模態的交互發展成多模態的交互,從人“屈從”于機器,到機器理解人類,再到現在的“對話即系統”,最明顯的就是ChatGPT。典型的1.0時代是人“屈從”于機器,就像鍵盤一樣,不知道它是怎么排列的,一定要屈從鍵盤的排列組合,輸入我們的信息。關于單模態,大家可以看到微信最早期第一版只有文字。其實人與人的交互,人與機器的交互應該是多模態的,我們可以通過人的表情、姿態和聲音還有字里行間的含義進行多模態交流。3.0階段就是基于多模態大模型的跨模態、多模態的人機交互。目前,在一款最新的手機端上就實現了基于自然語言對相冊圖像的內容含義的搜索。比如,在傳統的手機相冊里找一個身份證可以找到,找一個人可以找到,但是找一下我和父母的合影就很難找到,但是將多模態大模型優化到智能手機端的應用后,基于跨模態,自然語言的理解,這種搜索完全可以實現。”
大模型交互對話的痛點問題
大模型交互對話的痛點包括生成內容的可控性、生成內容的可解釋性和多模態、跨模態的理解問題。
首先,是目前普遍意識到的生成內容的可控性。大模型容易生成幻象,幻象就是大模型好像都懂,但是生成的內容錯了,生成的內容看似很合理,但是不對,就是通常人們所說的“一本正經的胡說八道”。由于這個問題,大模型會導致在比較嚴謹的應用場景里出現問題,比如在醫療場景下,如果出現可控性的問題,幻象的問題,會出現胡編亂造的診斷結果,這是致命的;再比如在政務場景中,因為會涉及到很多政府發布的政策,如果有幻象問題,大模型編造出一個政府的政策,這也是非常糟糕的。
其次,是生成內容的可解釋性,以及生成內容的實時性和安全性,可解釋性這個痛點可以從模型層面和產品層面去解決。一般來說,由于“幻象”的出現,用戶對大模型生成的內容天生缺乏信任感,且很多大模型都無法回答今天是幾月幾號的問題。 此外,現在很多的大模型的應用是需要可解釋性,生成內容的安全性,以及隱私性。
最后,是大模型需要能夠做多模態跨模態的理解。例如在醫療場景中,診斷時需要考慮到的患者的病史、病歷、年齡、癥狀等都是多模態跨模態的問題。目前,行業中也一直在做跨模態的研究,深思考人工智能也在跨模態領域有文生圖、圖生文、音生圖、圖生音等最新的研發進展。
技術實力多年積累積淀,獲得頭部客戶實力認可
楊志明表示:“我們也不是一夜之間就做起來的。我們主要來自中科院計算所、軟件所、自動化所,包括清華、耶魯大學一線的AI科學家團隊組成。最早在2015-2017年時,基于多模態深度學習的模型,已經實現了為最早的一批客戶提供產品與服務。2017-2019年,自主研發了BMNET 多模態輕量級預訓練模型。2020年開始,我們完全自研基于Transformer decode only的多模態大模型Dongni,在2020-2023年之間,在為3000多萬人提供了癌癥早篩服務的同時,手機完成了近4.3億部的智能終端落地。人機交互領域,我們為華為、小米、上汽、奇瑞、九陽、京東等多家客戶提供了產品服務,在智慧醫療領域,我們也擁有上百家醫療機構的客戶和覆蓋了70%的第三方醫學實驗室。”
Dongni多模態、跨模態大模型特點:五大特性構筑行業壁壘
深思考人工智能多模態大模型有兩個愿景,一是在智能終端打造屬于每個人個性化手機終端的大模型智慧助理;另一個是賦能千行百業,目前已經在手機、汽車、癌癥早篩、智慧營銷、游戲、智能制造等場景大規模落地。多模態、可解釋性、實時性、可溯源性、輸出結果可控性,是深思考人工智能Dongni多模態大模型的5大突出特點優勢;除此之外,大模型有情感,個性化,也是該大模型區別于其他模型的突出優勢。深思考人工智能Dongni多模態大模型,作為基底大模型,目前已在非常細分的垂直場景,如醫療癌癥早篩、智能制造在工業質檢等場景下做了非常好的基于基底大模型的快速適配。
楊志明認為,基于多模態大模型的人機交互,需要符合場景化的落地,通過創新的技術,解決在大模型中普遍存在的痛點問題,實現多模態大模型的可解釋性、實時性、可溯源性和輸出結果的可控性,最終促進 AI 技術對垂直場景的高效賦能和內容生態的價值實現。
責任編輯:梁斌 SF055
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)