意見領袖丨中國金融雜志
作者丨姚前‘中國證監會科技監管局局長’
進入2023年,ChatGPT、GPT4以及Midjourney等以內容生成為導向的人工智能應用,引發了一輪又一輪的創新浪潮。有人甚至認為,大模型正在以日為單位迭代進化。作為新型生產要素,大模型訓練數據的良性可持續發展,對于大模型和人工智能產業的發展至關重要。金融業作為大數據和人工智能應用的重要領域,理應密切關注當前大模型訓練相關技術的最新態勢。本文首先分析大模型的進化與升級路徑,之后通過探討大模型和中小模型可能的交互方式,闡述大模型的數據生態和模型生態建設,為保障產業安全健康發展、規避數據和技術風險以及構建可持續發展的大模型生態提供相關思路。
大模型的升級與進化路徑分析
從長期視角來看,大模型的進化衍生出眾多分支。最近一段時間,大模型迭代不僅速度加快,而且參與者也越來越多,基本上涵蓋了所有的大型科技公司,生態的多樣性和復雜性已初步顯現。
目前,大模型升級迭代過程中的底層算法框架并沒有本質的變化,算力投入以及訓練數據的豐富仍然是其快速進化的關鍵,只不過最新的GPT4呈現出一些新的特征。
一是算法方面更適配具體的下游任務。GPT3與GPT3.5都是1750億參數的大模型。GPT4目前沒有公布具體參數,但有人推測其參數將達到萬億級別,同時在強化學習和解決具體任務方面也將有顯著提升,比較流行的術語是“對齊”(Alignment)。如果說GPT3系列模型向大家證明了人工智能能夠在一個模型里做多個任務,那么GPT4則在很多任務上已經達到甚至超過人類水平,比如,在律師等專業學術考試上,分數能夠達到應試者前10%左右的水平。
二是具備更規范的訓練數據治理能力且支持多模態。GPT4擁有“堪比人腦”的多模態能力,跟目前很多論文闡述的多模態機理并無太多差別,但它能夠把文本模型的少樣本處理能力和思維鏈(Chain of Thought,CoT)結合進來。GPT4訓練數據的治理與供給,離不開數據標注、數據管理與評估、數據自動化以及數據合成。
三是構建更強大的算力集群,以滿足更多的訓練數據集和更大的輸入參數。例如,微軟已經將超過一半的云資源投入大模型訓練與人工智能生成內容(AIGC)應用。英偉達更是與臺積電、荷蘭阿斯麥、新思科技強強聯手,打造全新的算力平臺與更強大的GPU。
構建各類模型相互聯通的生態
GPT類大模型功能強大,在未來會成為許多行業如互聯網、金融、醫療等領域的重要基礎設施之一。例如,在金融領域,經過相關專業數據的訓練,大模型可以具備理解金融業務知識的能力,并能針對具體場景提出解決方案,支持金融機構開展營銷自動化、客戶關聯關系挖掘、智能風險識別、智能客服、智能投研等。
但在具體應用落地的過程中,GPT類大模型還會面臨一系列挑戰。一是如何確保訓練數據的數量與質量。一般而言,大模型的訓練語料為來自于多個領域的通用語料,而專業語料的收集通常比較耗時費力,同時也存在隱私問題,由此導致大模型在具體的個別應用領域可能出現專業性不足的情況。二是如何降低大模型的運行和維護成本。大模型需要巨大的算力支持和嚴格的數據治理,普通的機構和應用部門往往難以支撐大模型的運行以及迭代升級工作。為此,需要建立一個各類模型健康交互和協同進化的生態,以保證大模型相關人工智能產業可以在各個應用領域成功落地。
從技術角度來分析,大模型的進化依靠人工反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF),其采用的數據標注與過去那種用低成本勞動力完成的簡單數據標注工作有所不同,需要非常專業的人士來寫詞條,針對相應的問題和指令,給出符合人類邏輯與表達的高質量答案。但由于人工與機器的交互存在一定的隔閡,比較理想的模式是通過模型之間的交互來進行強化學習,即依靠模型反饋的強化學習(Reinforcement Learning from Model Feedback,RLMF)。基于各類模型的交互,可以將整個大模型的數據和模型生態統一為一個框架。
過去,在分散化的模型研發模式下,單一的人工智能應用場景下多個任務需要由多個模型共同支撐完成,每一個模型建設都要經歷算法開發、數據處理、模型訓練與調優過程。預訓練大模型增強了人工智能的通用性、泛化性,基于大模型通過零樣本或小樣本精調,就可在多種任務上取得較好效果。大模型“預訓練+精調”模式為人工智能研發帶來了新的標準化范式,使人工智能模型可以在更統一、更簡明的方式下實現規模化生產。圍繞技術創新與應用落地,大模型的數據和產業生態可劃分為基礎設施(包括通用語料及算力平臺)、基礎大模型、大模型服務(包括合成數據、模型供給及應用插件)。在下游應用中,用戶可以部署自己的小模型,通過大模型的各種服務來提升性能,同時也可反向給大模型提供相應的反饋服務,幫助大模型迭代進化(見圖1)。
基礎大模型是大模型產業生態的核心引擎,其優勢在于基礎性和通用性,面向典型任務如自然語言處理、計算機視覺、跨模態任務等需求,進一步結合任務特性,優化模型算法,學習相關數據與知識,從而使大模型表現出更優異的效果,甚至可以零樣本直接應用。
小模型具有體量小(通常在百億參數級別)、易于訓練及維護的特點,因此適合各垂直領域,適合各行業進行內部開發和使用。在通常情況下,小模型訓練成本較低,但性能遠不及大模型。通過大、小模型交互應用,可以讓小模型獲得大模型的部分能力或實現部分功能,從而在不增加運維成本的前提下,使小模型的性能得到較大提升,滿足具體的應用需求。大、小模型交互的方式可以分為三類:數據交互、模型交互和應用交互(見圖2)。
數據交互
數據交互是指大、小模型不直接參與彼此的訓練或推理過程,而是間接通過彼此產生的數據來進行交互。大模型的訓練通常需要大規模的通用語料,如GPT3的訓練語料多達753GB,來自維基百科等多個數據源。通用語料指的是覆蓋多個領域的語料,在某些特定領域的知識覆蓋可能存在不足。大模型訓練完成后,可以通過指令生成一些特定領域的合成語料,再通過本地化部署,連同該領域的專用語料或行業內的私有語料一起訓練小模型。小模型訓練語料的領域比較集中,因此可以系統掌握本領域的知識,從而使模型的輸出更專業、更細致、更精準。大模型在這一過程中的作用是產生大規模的高質量合成語料,使小模型的訓練可以更加充分,防止專用語料或私有語料因規模小而導致模型的過度擬合。反之,小模型生成的專業語料,也可以作為大模型訓練語料的補充,增強大模型在不同領域的專業能力,使大模型可以不斷迭代進化。
實現大、小模型的數據交互,除了要依靠數據源管理機構外,還需考慮建立數據托管和交易機構,使得大、小模型的訓練數據可以有序管控和流動,并為各方合理分配相應的權益。
模型交互
除了間接的數據交互之外,大、小模型還可在模型層面進行交互,通過參與彼此的訓練過程,使得雙方可以共同受益,提升大模型的迭代效率。一方面,大模型可以指導小模型的訓練,常用的方式為蒸餾學習(Knowledge Distillation)。在蒸餾學習模式中,訓練好的大模型可以作為教師模型,待訓練的小模型作為學生模型,針對同一批訓練數據,通過設計合理的損失函數,將大模型產生的軟標簽與訓練數據本身的硬標簽對小模型的訓練進行聯合指導。同樣,小模型也可對大模型進行反向蒸餾,利用小模型做樣本價值判斷幫助大模型加速收斂——將訓練好的小模型在下游數據集上進行進一步微調之后,得到樣本價值判斷模型。
應用交互
大、小模型在應用層面進行交互的典型方式為插件模式,即將模型構建的應用封裝為插件服務供其他模型調用。插件模式具有兩大優點:一是便捷高效,模型無需重復訓練;二是隔離性好,可以避免模型細節的泄露,從而更好地保護模型訓練方和使用方的權益。
一方面,大模型基本上采用預訓練方式,實時性不高。通過調用小模型應用插件,大模型應用不僅可以提高輸出結果的實時性,也可以擴展自身在特定領域的知識缺失。另一方面,小模型構建的應用也可以通過調用GPT類大模型提供的插件,直接獲得大模型強大的生成能力和推理能力。這種應用交互方式可以讓小模型免去通用知識的訓練過程,以較低成本來專注于特定領域的內容生產,用戶也可以感受到各類模型互聯互通后產生的“化學”反應。
開放人工智能(Open AI)近期發布的新產品ChatGPT plugins可以通過應用插件連接ChatGPT與第三方應用。這些第三方應用,可以是由單個領域的小模型構建而成。通過這種方式,小模型可以在ChatGPT類的大模型中完成多種擴展功能,如檢索實時資訊或知識庫信息、代替用戶對現實世界進行“智能調度”等。
大模型訓練數據與模型工具鏈的標準化和安全管控
大模型的性能依賴于訓練數據的質量,同時,模型在不同落地場景下所需的底層技術規格也不盡相同。因此,構建大模型持續發展、健康交互的良好產業生態,必須推進大模型訓練數據與底層技術的標準化,加快模型的迭代與落地。
一方面,大模型自身的訓練數據集以及定義的數據服務接口(API),將會成為行業的事實標準,而接入大模型的各種應用都必須遵循該標準。目前,模型“預訓練+微調”已經成為行業統一的標準流程和范式。在此基礎上,結合具體的應用場景和專業數據,可以進一步定制和優化各領域各行業的小模型。從某種程度上來說,大模型訓練數據和數據服務接口標準,將會成為下一代國際標準的核心之一。
另一方面,處理大模型訓練數據的底層技術所需的工具鏈也必須產品化和標準化。大模型在標準化技術服務的有力支撐下,可輸出硬件適配、模型蒸餾和壓縮、模型分布式訓練和加速、向量數據庫、圖數據庫、模型互聯互通等技術方案,提供自然語言處理、計算機視覺、跨模態、知識圖譜等各類能力,讓更多的企業、開發者可以低門檻地將大模型應用于自身業務并構建行業垂直模型,從而促進人工智能在各領域廣泛落地。
值得注意的是,大模型的開發和應用雖然會對產業和經濟發展帶來巨大紅利,但如果不加以合理管控,也會給國家和產業安全帶來風險。一是數據泄露風險。大模型的訓練、落地,都需要以海量的數據支撐,其中包含行業或個人敏感信息的數據。如果沒有合理的數據脫敏和數據托管機制,則可能造成數據泄露,給行業和個人造成損失。二是模型安全風險。比如,插件可能被植入有害內容,成為不法分子欺詐和“投毒”的工具,危及社會和產業安全。
相關建議
以大模型訓練數據為抓手,標準制定和數據治理雙管齊下。通過制定模型應用規范,統一接口標準,促進行業規范化發展。可考慮對模型的合成數據進行托管,以加強監督,保障數據內容合規、權益清晰、流通順暢。同時完善法律法規,優化政策制度,以多種途徑與方式形成監管合力,嚴防惡意篡改模型和滲入有害數據等行為。
構建大模型訓練數據要素市場。厘清訓練數據采集處理、合成數據服務、大小模型互聯互通、應用API之間的產業鏈。加快數據要素市場建設,為訓練數據提供市場化定價,以利權益分配與激勵。
構建大小模型共生發展、相互促進的良好生態。總體來看,目前國內外主流大模型在算法層面尚不存在代際差,但是在算力和數據方面存有差距。建議在通用領域大力支持國內頭部科技企業研發自主可控的國產大模型,同時鼓勵各垂直領域在大模型基礎上,利用開源工具構建規范可控的自主工具鏈,既探索“大而強”的通用模型,又研發“小而美”的垂直行業模型,從而構建基礎大模型和專業小模型交互共生、迭代進化的良好生態。
(本文作者介紹:權威、專業、理性、前沿,宣傳金融政策、分析金融運行、報道金融實踐)
責任編輯:張文
新浪財經意見領袖專欄文章均為作者個人觀點,不代表新浪財經的立場和觀點。
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。