文/姚前(證監會科技監管司司長)
2022年底,OpenAI(美國人工智能研究公司)發布的大模型ChatGPT(對話生成式預訓練大模型)引發了廣泛關注。在“大模型+大數據+大算力”的加持下,ChatGPT能夠通過自然語言交互完成多種任務,具備了多場景、多用途、跨學科的任務處理能力。
以ChatGPT為代表的大模型技術可以在經濟、法律、社會等眾多領域發揮重要作用。大模型技術被認為很可能像操作系統一樣,成為未來人工智能領域的關鍵基礎設施。
國內外大模型現狀
目前,國內外出現截然不同的發展趨勢:一方面,國外閉源領域以OpenAI的ChatGPT為主導;在開源領域,Meta(臉書的母公司)發布了以LLaMA系列為主的模型。大模型競爭焦點主要在于如何開發原生應用。另一方面,國內呈現“百模大戰”,各種大模型如雨后春筍般涌現。國內外大模型各有其獨特之處,共同推動人工智能領域的多元化發展。
國外大模型發展現狀。ChatGPT經過三次重大升級,先后演進為更快、更準、更長上下文的GPT4(OpenAI推出的大模型4.0版本)和GPT4-turbo(GPT4的升級版本)。近期,OpenAI又推出文生視頻大模型Sora。此外,OpenAI還持續推進插件和應用市場生態建設,GPT Store(GPT大模型的應用商店)將助力大模型實現更廣泛的應用。谷歌連續發布Gemini、Gemma大模型,全面覆蓋開源和閉源方向,其中開源大模型系列Gemma,分為2B和7B兩種參數版本,2B版本甚至可直接在筆記本電腦上運行。垂直領域方面,BloombergGPT基于海量金融數據,實現比通用大模型更好的專業能力。
國內大模型發展現狀。國內互聯網和大型科技公司紛紛研發各自的中文大模型,如百度文心一言、阿里通義千問、騰訊混元大模型、智譜ChatGLM和科大訊飛星火大模型等。這些模型在處理中文任務的能力上都已經達到或超過了GPT3.5的水平,但距離GPT4尚有一定差距。
國內大模型支持私有化部署,但由于算力限制,一般B端用戶只部署參數體量較小的大模型,如智譜的ChatGLM-6B模型。阿里通義千問72B大模型的開源,使得國產大模型在私有場景里具備了一定的涌現能力。另外,在金融等垂直領域,專業大模型也如雨后春筍般涌現,包括度小滿的軒轅大模型、螞蟻金服的AntFinGLM以及恒生電子的LightGPT等。
行業大模型的必要性
以ChatGPT為代表的通用大模型,作為技術底座在多個任務和領域上均表現出較好的性能。但通用大模型的構建和訓練成本通常很高,且由于缺乏專業知識與行業數據,并不能精準解決某個行業或企業的特定需求。為更好解決特定行業問題,垂直領域大模型應運而生。垂直領域大模型可以支持大模型新技術在行業內的落地,促進行業智能化轉型升級。因此,探索構建行業大模型在當前數智化轉型的背景下,顯得尤為迫切和必要。
傳統的部署模式如公有云、私有云以及混合云模式都存在一定的局限性。公有云模式可能受制于安全合規性、靈活性等因素,難以完全滿足行業機構的定制化需求;私有云模式雖然強調數據安全與隱私保護,但同時也帶來了極高的建設和維護成本,特別是對于預算有限的機構來說,可能不是最優選擇;混合云模式嘗試將兩者結合,但實施復雜,對于行業機構來說也可能存在一定的技術難度。
大模型需要在行業特定任務上打磨專業能力,達到業內認可的服務質量及成效。垂直領域對大模型的準確性和效果要求極高,需要大模型能夠對復雜的行業數據進行準確的學習、預測和分析,以支持決策和風險管理。
概而言之,構建行業大模型基座對于行業機構來說,不僅能夠解決傳統部署模式的局限性,同時也能夠提供合適的投入產出、合理的商業模式和具備專業水準的大模型服務能力。此外,行業機構可以基于行業大模型,結合私有語料,通過二次訓練和微調的方式形成自身特色的私有大模型。
行業大模型的參考路徑
打造行業大模型,高效的工具與流水線化加工扮演著至關重要的角色,包括語料收集與治理、基座模型選擇與預訓練、模型微調、模型評測與優化等。一般可基于MaaS(Model-as-a-Service,模型即服務)平臺構建及部署,MaaS平臺提供了一整套大模型服務工具鏈和開放平臺,圍繞模型的生命周期提供各種產品和技術服務。
(一)語料收集與治理
針對行業大模型,收集大規模高質量的行業專用語料,開展語料治理,包括數據清洗、格式轉換、數據標簽化等。
(二)行業大模型的預訓練
根據業務需求,選擇合適的模型框架體系,利用通用語料,結合行業專用語料訓練,使其具備通識能力和行業語言理解能力。行業大模型的預訓練過程,需要對大規模的行業無監督數據進行自監督訓練和有監督調優。
(三)模型微調
基于預訓練的行業大模型,行業管理部門、經營機構等可以使用私有語料開展模型微調。目前行業大模型常用的精調算法包括有監督精調和參數高效精調等。通過模型微調,行業機構即使在算力資源受限的情況下,也可以利用已預訓練好的大模型迅速適配特定專業領域的任務,實現高效的遷移學習。微調技術包括prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA等。
(四)模型對齊
在大模型訓練時引入意識形態、公序良俗等價值觀對齊語料的作用是,確保模型在實際運用中能夠有效識別和過濾有害信息,構建更安全、更負責任的大模型,確保技術應用與社會道德及法律法規相一致。通過將負面標簽語料、價值觀對齊語料納入訓練集,模型會學習到哪些內容是不合適的,從而在用戶與模型交互時能夠識別出潛在的負面意圖或請求,并采取相應的處理措施,如警告、拒絕回應或報告給后臺人員。
(五)模型評測與優化
定期評測模型的性能,并根據評測結果進行優化,涉及調整參數、使用不同的訓練策略或引入提示詞工程等。從技術角度分析,大模型的進化依靠人工反饋的強化學習,其采用的數據標注與過去那種用低成本勞動力完成的簡單數據標注工作有所不同,需要專業的人士來寫提示詞,針對相應的問題和指令,給出符合人類邏輯與表達的高質量答案。但由于人工與機器的交互存在一定的隔閡,比較理想的模式是通過模型之間的交互來進行強化學習,即依靠模型反饋的強化學習。
評測體系亟待構建
現有的大模型評測主要來自科研院所和商業公司等對外發布的論文或報告。這些評測報告著眼于通用大模型的能力和效果,對垂直領域特別是行業的細分業務場景,其評測能力仍有不足。因此,亟需構建行業大模型評測體系。
面向大模型“建、用、管”的產業需求,從大模型的開發能力、功能性能、運營能力和安全可信等方面來構建行業大模型評測體系。評測指標應該基于行業的專業知識和業務場景,涵蓋上述各方面內容。此外,還應考慮模型對專業領域術語和概念的理解程度,以及對相關法律法規和合規要求的遵循。
根據構建的評測指標體系,結合實際應用場景,大模型評測可采用人工評測和自動評測。人工評測是通過專家團隊對大模型進行實際應用場景的測試和評估。這種評測方法側重于模型的實際效果和用戶體驗。自動評測是使用預設的評測算法和統計模型對大模型進行評測。這種評測方法側重于模型的性能準確性、穩定性和高效性。綜合實際應用場景,可以采用結合人工評測和自動評測的混合評測方法。
行業大模型建設思路
構建行業大模型意義重大,考慮到建設投入資金較高,涉及數據安全和網絡安全,需要行業管理部門統籌規劃,按照“共建共享、統分結合、提質增效、穩妥推進”的建設原則,協調行業核心機構、經營機構、信息技術服務商等共同推動行業大模型高質量建設。
集中行業力量,以共建共享的方式建設基于大模型的公共基礎設施,可以有效整合行業算力、數據等資源,防止重復建設,提高建設和使用效率。行業大模型以基礎設施方式賦能行業監管、市場發展,助力提升行業數字化、智能化水平。
行業大模型建設的總體原則應堅持統分結合。“統”指的是統籌規劃和管理,如統籌行業大模型建設規劃,統籌管理算力資源、數據資源、技術棧規范、數據安全規范等;“分”指的是行業機構能夠分工細化的任務場景,不同機構可以根據自身需求和業務場景,基于行業大模型公共基礎設施開展自身業務場景應用的開發工作。
創新技術的發展離不開標準的推動,行業大模型標準體系的建設,對于加速大模型與行業應用融合,促進產業向標準化、合規化、規模化方向發展,具有重要意義。
一是大模型數據標準。通過梳理相關數據資產,形成通用語料、行業專用語料,與行業微調指令集相結合,覆蓋數據安全規范、數據合規清洗、數據質量提升、訓練數據集構建等一系列工作,形成行業大模型數據標準和規范。
二是大模型安全標準。行業大模型安全標準主要分為技術可控與業務可用兩大維度。其中,技術可控部分重點圍繞數據可信、算法模型可信和基礎設施可信三個維度展開。業務可用部分可圍繞應用可控、業務設計可信兩個維度展開。
三是大模型運營標準。行業大模型運營階段,可從數據工程、模型調優、模型交付、服務運營、平臺能力、生態擴展能力等方面構建標準體系,提升模型的可復用性,提高開發、運維效率。
(作者為證監會科技監管司司長;本文首發于2024年3月25日出版的《財經》雜志)
(本文作者介紹:中國證監會科技監管局局長姚前)
責任編輯:張文
新浪財經意見領袖專欄文章均為作者個人觀點,不代表新浪財經的立場和觀點。
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。