“2023中國AIGC產業發展論壇”于9月4日在北京召開。歐洲科學院外籍院士、聯想集團首席技術官、高級副總裁芮勇博士出席并發表演講。
芮勇表示,在大模型生態結構層次中,有算力層、平臺層、模型層、服務層和應用層。如果下一個巨大的爆發期不是在建大模型,而是應用大模型,那么服務層將變得非常重要。他認為,服務層應該做好三個“化”:場景化、輕量化、類腦化。
以下為演講實錄:
非常高興有機會跟大家進行交流。15分鐘很短,我就分享一個觀點。我粗略統計了一下,目前業界有上百個大模型,大有15年前的千團大戰的趨勢。大家想想15年前的千團還剩幾個,只有一兩個了。現在的大模型今后還能剩幾個,我覺得也就寥寥無幾。所以我的一個觀點,從幾個月前開始,我相信越來越多的人看到,有一個大的趨勢的轉變是從“建”大模型到“用”大模型。更重要的事不在于又建一個大模型,又發布一個大模型,而是有沒有找到一個好的、合適的垂直行業,有沒有找到一個好的、合適的場景,有沒有真正去解決一個痛點,有沒有真正打造一個有效運用大模型的配套工具,我覺得這個才是最重要的。
在大模型生態結構層次中,有算力層、平臺層、模型層、服務層和應用層。如果下一個巨大的爆發期不是在建大模型,而是用大模型,那么服務層將變得非常重要。這也是我今天想跟大家分享的,把服務層做好三個“化”,也就是“場景化”、“輕量化”、“類腦化”。
先看第一個,場景化。今天很多通用大模型,無論是ChatGPT還是國內的大模型,對一些比較通用問題的回答還是可以的,但是對許多場景化應用無法落地,無論是B端場景還是C端場景。B端的場景給大家舉一個例子,這是我們公司內部的一個應用,通用大模型無論是ChatGPT還是國內的大模型,不可能知道企業內部的數據庫和企業內部的知識庫。比如在618促銷的時候,它不可能知道企業內部產品的關系,哪個產品的庫存有現貨,哪個正在促銷打折,現在618哪個產品最便宜。所以B端一定要做場景化。C端其實也是一樣的,跟ChatGPT聊上幾句,最開始很新奇,很有意思,聊一個月以后還會去聊嗎?不太會。但如果在C端做一個有場景的數字人,這個事就變得不一樣。例如這是Character.AI里最流行的幾個角色,前面三個是跟游戲相關的,我不怎么打游戲,所以前三個不太清楚,但是相信在座的年輕人熟悉。第4個是一位心理學學生做的心理咨詢師數字人,會回答很多心理上的問題,有什么焦慮,有什么問題,怎么去共情,怎么疏導情緒,非常火爆。第5個大家都認識,伊隆·馬斯克,他發表所有的觀點都作為模型訓練數據,形成一個具有馬斯克個人特色的回答,用戶可以問他怎么創業,遇到問題該怎么辦等等。這樣,有場景化的大模型才真正有意義,才能真正找到落地的商業模式。無論是從B端還是C端,我們看到,真正想有一個能賺錢的產品模式,必須做場景化。
做場景化有幾種不同的方式。第一種,如果用戶自有大模型,很容易,將數據灌進去調整模型參數就好了,但問題是用戶不一定擁有這個大模型,另外算力需求也很大。這里有兩個例子,一個是Bloomberg做的GPT在通用模型之上做了財經類的垂直模型,另一個是Google做了基于醫療領域的大模型Med-PaLM。如果有大模型,就可以訓練出垂直領域的大模型。但是很多情況下沒有大模型,沒有這么多的算力。
第二種,只調整模型中的少量參數,即高效參數微調。比較有代表性的,我相信在座有不少同事都很清楚,就是使用低秩矩陣的LoRA方法。大模型的預訓練參數不變,我在邊上做一個低秩矩陣,用這個小的低秩矩陣去調現有的數據。這樣做的好處是用很少的算力資源,比如只用它的千分之一就夠了。但是問題是如果現有的場景和之前的大模型差太遠,光靠一個低秩矩陣去調也不行。
第三種,不是調大模型的本身,調的是提示詞,就是我們說的Prompt Engineering。半年前ChatGPT很火的時候,我跟同事發現一個問題。我們問大模型同一個問題,問的方式不一樣ChatGPT回答也不一樣。我們把會問問題稱為“念咒語”,其實這個問題的問法,即prompt也是可以去學習去訓練的。用Prompt Engineering的方法把這里關鍵的問題挖掘出來,問的方式不對就問不出最好的答案,問的對了,就能問出最好的答案。
第四種方法叫做檢索輔助增強。這個其實大家也可以想象,我一定不會拿企業的一些信息問ChatGPT,那是不可能的事情,這里有數據安全的問題。比較好的方式是把一個大模型私有化部署在企業內部,和企業的數據庫知識圖譜連在一起。當然放在公有大模型上也可以,New Bing就是這么做的,它的好處是實時,ChatGPT的好處是知識非常寬廣,并不是實時的,這就要看怎么把知識寬廣和實時性相結合。
最后一種是外掛插件調用。做數學方面研究的人肯定知道有一個工具箱非常強大叫Wolfram Alpha,但是它對語言的理解非常弱,跟大模型剛好相反,如果大模型外掛上一個Wolfram Alpha它的計算能力就非常厲害。這里不做過多展開,但是告訴大家這五種方式可以將一個通用的基礎大模型適配到某一個垂直行業和某一個場景。
以上講的是大模型的場景化,真正想落地,建立商業模式,我覺得這一步是一定要做的。第二步我覺得很重要的一點,大模型一定要輕量化。它在云側和端側都需要做到輕量化。在云側,有人做過計算,大模型GPT-3訓練時所需要的能耗相當于一個人從紐約到舊金山往返飛行550次,這是非常不環保的一種方式。即使訓練做完了,在做推理的時候,耗費的能量應該少一些,但是它每個月仍然會花大概1200萬美元左右,只是為了支持推理而已。這是一個非常耗能源、耗算力、耗資源的方式,所以我們希望在云側也有辦法去輕量化。
在端側更是這樣,云側大模型太貴了,我們希望在端側能夠也有一個大模型,無論是部署在邊緣側還是手機或是PC上。端側大模型有很多好處,它的延時很低,能耗比較低,個人隱私保護得很好等等。無論是從云側看,還是從端側看,還是從環保看,從“雙減”看,都需要一個輕量化的大模型。怎么做,也有好幾種方式。
大家其實知道現在全球做得比較好的是OpenAI的ChatGPT,但是Google的PaLM做的是另外一種網絡架構的大模型。Google是用多專家方法去做的,有一個潛在的好處,訓練的時候每一個任務只是讓某一個專家去做,訓練完了以后做推理的時候也不需要整個模型都去做計算,只是點亮中間幾條通路而已,所以可以做到輕量化。這是第一種方式用稀疏激活的方式去做,達到輕量化。此外,大家都能想到的,大模型不可能在PC上直接跑,至少要壓縮以后才能跑,那么可以用蒸餾的方法、量化的方法去做。除了在端側做輕量化,在云上也需要加速,無論是編譯時優化還是用芯片硬件優化,也可以做到輕量化。最后一種是大模型與知識圖譜相結合,這幾種方法都可以做到輕量化。
剛才我講了兩個事情,一個是基礎通用大模型的場景化,另一個是怎么把大模型做到輕量化,這兩個非常重要。今后不在于哪個公司又“發布”了一個大模型,而是在于怎么“用”大模型。“用”大模型必須面對這兩個事情,基于應用場景進行場景化和把大模型做得更加輕量化。
下面稍微對未來做一點展望,類腦化也非常重要。剛才韓主任在她的開場致辭里也提到,類腦化確實很重要。大模型的出現讓人們看到希望,感覺是第三次人工智能的夏天似乎又來了,但是它也解決不了所有的事情。這是深度學習三巨頭之一Yoshua Bengio講的五層“世界范疇”,一個AI模型它有多厲害,它的世界觀有多大,來自于它的語言能力有多強,它的語言能力多強來自于它的訓練集多強。早些時候,世界范疇1就是一些比較小的模型,我相信在座的各位如果做過NLP的都知道從上世紀60年代一直到2019年,大家一直在干這個事情。直到ChatGPT出現,它用整個互聯網規模的數據進行訓練的時候,就進入了世界范疇2,這個是純文本。世界范疇3的話,除了文本之外還有圖像、音頻、視頻,是一個多模態,GPT-4也在干這個事。現在有一些科研領域的人在開始看世界范疇4。大家認為GPT也好,大模型也好,只是人的一個腦子,如果人只有腦子沒有腳沒有手,其實無法和外面的物理世界進行交互,跟外界事物有交互才能學習得更好。世界范疇5講的是,人類是社會生物,一定需要多群體交互。大模型是一個非常了不起的突破,但不是解決了所有問題。
這頁講的是Google做的具身智能,機械臂把相同顏色的積木放在不同的角落,一邊觀察一邊控制,跟外界事物有相互作用,這是他們在做的世界范疇4的研究。下面這頁PPT講的是今天的大模型很棒,但是還有很多的局限性。左邊是微軟研究院的文章指出,GPT-4也不是什么問題都能解,它做規劃的能力非常弱。右邊是MIT校友的研究,指出GPT-4不僅規劃能力弱,它的推理能力也很弱。它為什么會這樣?原因在于它的范式局限。今天大模型在干什么,其實大模型在預測下一個詞,再下一個詞是什么。它沒有一個大的規劃,看不到全局,這是它的問題。怎么突破局限解決這個問題?要向人的大腦學習,像剛才韓主任提到的,類腦化,人類想一件事情是一個詞一個詞想的嗎?不是,我們有規劃,我們有短期長期的記憶,我們知道什么時候選擇不同的工具,比如現在問我一個三位數乘三位數的乘法,我當然沒有答案,但是我會去找工具,會去做一個規劃,不會一小步一小步去做,把大問題分解成小問題再去做。
這是我的最后一頁,這15分鐘,我希望大家記住這一點,過去這6個月越來越清楚,趨勢就是從“建”大模型到“用”大模型。怎么用好大模型,需要找到合適的領域和場景,并且同時要建立有效的使用大模型的工具。大模型在那兒,我們需要建立的是實現場景化的工具,實現輕量化的工具,實現類腦化的工具,實現保護個人隱私,把工具找到,才能做好應用。這就是我剛才跟大家談的場景化、輕量化、類腦化。謝謝大家!
責任編輯:梁斌 SF055
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)