文/新浪財經意見領袖專欄作家 張寧
圖1:ChatGPT
2022年,ChatGPT和Stable diffusion標志著AIGC技術的爆發。一般來說,技術驅動的經濟模式發展要經歷五個階段:即產生、爆發(資本/資源介入的發展)、平穩、成熟和類要素階段。在平穩和成熟階段,不用考慮技術細節僅靠經濟規律宏觀分析就能夠發現價值看到趨勢;但在產生和爆發階段,我們不能忽略對技術細節的了解,而且需要結合技術特征和經濟規律才能把握變化、抓住機遇、找到穿越未來的方向,如同在火勢剛開始時了解它的引燃原因從而精準采取方案一般。本文結合ChatGPT的訓練原理與新知識經濟理論來解釋:為什么說ChatGPT乃至AIGC已經突破了數字經濟而過度到了新知識經濟。知識經濟相關理論請參考筆者公開出版物。
實際上迄今為止OpenAI并沒有公開相關ChatGPT的完整技術細節,相關ChatGPT技術原理都是從ChatGPT“出生證明”介紹上獲得的。注意:本文不是技術文章,對具體的技術原理感興趣的朋友可以參考筆者或其他作者相關的《人工智能》《深度學習》等教材或者慕課視頻;但這里我們需要了解ChatGPT訓練方法的思想是什么?因為這可以幫助我們進一步了解知識經濟中要素的地位、變化從而確定未來的方向。
圖2:ChatGPT網站說明截圖
在這段話里,OpenAI闡述ChatGPT有這個幾個特點(它們很重要,后面有涉及):
這張出生證很短,但是它給了ChatGPT一個清晰的畫像:OpenAI試圖提供給一個人們高效率的、可信的、有能力的人工智能助手。
實際上這三個描述恰好決定了“產生ChatGPT”的方式,或者說ChatGPT技術原理與此有關。作為一個注釋:可信人工智能是一個人工智能的發展方向,特別是當人工智能進入到一些關鍵性領域,例如金融、醫學和軍事中。我們的《中國金融科技創新發展指數報告》中提出,人工智能與金融的融合分為三個階段,在進入到產能階段后需要邁過兩個門檻,一個是可解釋門檻,一個是可信門檻。我們和其他一些團隊在這方面做了許多工作可以參考相關公開出版物。
圖3:ChatGPT的原理圖/類InstructGPT
從ChatGPT的原理圖可以看到,其整體分為三個步驟,這三個步驟恰好是為了“雕琢出“需要的能力和畫像。
第一步(Step1)是監督學習構建能力基礎,重點是泛數據的價值和第一類知識價值模式。我們知道:有了數據,監督學習是構建能力的好方法,注意模仿學習也是可以考慮的。一些學者認為這是數字經濟中重要的數據要素價值產生的典型方式,這樣理解雖然沒有問題,但卻是因為不了解技術細節而忽略的更本質的東西:第一有質量的數據需要龐大的成本,傳統思維的數據價值實現方式有邊際天花板,這形成了新的數據價值階段,從監督過度到無監督,從專業數據過度到泛數據,這是知識經濟理論的必然結果,ChatGPT以及大語言模型乃至AIGC必然的路徑,這里的技術細節是ChatGPT乃至問答模式其實是一個“接龍“,是輸入一系列輸入token后預測后面的token,所以用監督學習通過獲得條件概率來獲得,類似于輸入法,泛數據實際上解決了標注問題(能力問題),但要注意沒有解決可信問題,因為回答的token(注意是一個接一個預測,這里需要了解一點自然語言處理知識)是概率分布抽樣得到的,即存在隨機性,一個隨機做事的人,你肯定也不大容易相信哈;第二點實際上在現有的數字經濟框架并不容易發現,需要拓展到知識經濟,那就是第一類知識價值模式,ChatGPT中的P本來就含有預訓練的意思,預訓練技術Finetune是深度學習爆發的導火索(想想Hinton先生的那片2006年奠基性文章),這顯然是第一類價值模式,即知識的直接遷移和同水平組合(SLC)。需要看到的是,類似的構造能力的方式將會產生更多的方法,并在未來新的場景中產生新的應用。這一步獲得的是放飛自我的小白。
第二步(step2)收集比較數據并訓練獎勵模型,這是構建可信能力的基礎,其本質上是第三類知識經濟價值模式。粗看這一塊和許多傳統語言模型不同,但實際上這個在2017的公開論文中就有了(即基于偏好的模式),按照InstructGPT中原理介紹,對于同樣問題前面獲得的放飛自我的大白會生成的ABCD共4個回答(生成多少都可以,為什么?),參與的人(專家)會給出ABCD四個答案的排序,而實際上ChatGPT是每次抽兩個構建評分(大的是1,小的是0),這樣可以構建6個評分結果(C(4,2))。這樣構建的獎勵模型實際上可以看作可信監督員,要不我們就稱為監管機關把,還是監管員把(一行三會原諒我)。
第三步(step3)強化學習架構實現固本強基,固定可信能力基礎提升效率,這里涉及到第二類知識價值模式。其實這個與傳統強化學習有些差異,強化學習本質上環境是獎勵的載體,這里是用了第二步的獎勵模型就不用考慮環境了,可以看到其實是介于強化學習和模仿學習之間,該思路也是17年的論文就有人提出了。其實這里需要看Instruct論文才能夠看到更重要的細節,即這里的獎勵不僅僅是第二步的獎勵模型,還包括了KL散度以避免與GPT3.5產生過大的差距,可以理解為除了監管機關還有法律這個準繩,所以結果是可信的。因為它帶有“可信”價值導向和資源可篩選機制,所以這是典型的第二類知識經濟價值模式的體現。
深度學習剛興起時,以監督學習為代表的訓練方法促使了“標注”行業的誕生,大量的數據標注公司比人工智能企業更早獲得了技術的第一桶金;而當數據要素化并逐漸稱為基礎設施的過程中,以ChatGPT為代表的AIGC所依賴的訓練方法具有“泛數據、非監督、可信目標、通用能力”的特點,其本質從最初的數據要素三重價值逐漸轉化到新知識經濟的三重價值,強人工智能的道路上,經濟模式也由數字經濟轉化到知識經濟。
【參考文章】:
Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).
Radford, Alec, et al. “Improving language understanding by generative pre-training.” (2018).
Ouyang, Long, et al. “Training language models to follow instructions with human feedback.” arXiv preprint arXiv:2203.02155 (2022).
Chen, Mark, et al. “Evaluating large language models trained on code.” arXiv preprint arXiv:2107.03374 (2021).
Neelakantan, Arvind, et al. “Text and code embeddings by contrastive pre-training.” arXiv preprint arXiv:2201.10005 (2022).
Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.
(作者系中央財經大學金融學院教授、博士生導師,中央財經大學中國金融科技研究中心主任,中國銀保監會償咨委委員,家族辦公室合作與發展組織理事會主席兼首席經濟學家)
(本文作者介紹:中央財經大學教授、家族辦公室合作與發展組織首席經濟學家。)
責任編輯:王婉瑩
新浪財經意見領袖專欄文章均為作者個人觀點,不代表新浪財經的立場和觀點。
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。