來源:蒙格斯智庫
在數字化時代,數據對經濟生活的影響日益深刻。2022年末,以ChatGPT為代表的大數據人工智能模型層出不窮、良莠不齊,其優劣高度依賴于輸入數據的質量,這就對數據質量提出了更高的要求。但在對數據本質的認識上,人們仍然處于一個相對初級的階段,導致現有的數據處理技術主要存在三個問題:一是忽略了數據本身存在不確定性,二是缺少對預測未來有效的數據處理方法,三是忽視了人與數據關系導致的偏差。針對上述問題,2023年10月9日,蒙格斯智庫正式向全球推出TDRU(Tools of Data Reconstruction on Uncertainty)—一個基于不確定性原理,通過數據重構解決上述問題的工具。
TDRU理論來源
長期以來,蒙格斯智庫一直在研究不確定性的相關問題,在數據科學領域中,蒙格斯智庫學術委員會主席朱小黃先生在《中國銀行業》雜志2023年第2期上發表的《不確定性與數據重構》一文深刻討論了數據中存在的不確定性問題。他認為,世界的本質是不確定性,因此人類社會和行為都帶有偶然性,數據作為反應客觀世界和人類行為的載體,也存在不確定性。
為什么說世界的本質是不確定的?因為不確定性可以被理解為時間軸上我們永遠無法知曉的未來,即四維空間。對于判斷過往,傳統的數據分析方法已經足夠,但對于預測未來而言,未來是不確定性的四維空間,只有在三維和四維空間中具有邏輯關聯的數據,才能夠對未來行為產生實質性影響。相反,偶然性數據由于缺乏這種邏輯關聯,對未來預測是無效的。在構建預測未來模型時,應排除這類偶然性數據。而在可重復數據的分類中(自然數據、歷史數據、邊際數據等),每一類數據都可以發揮一定程度的影響,因此要在預測未來的模型計算中賦予上述數據不同的權重,來表達這些數據對未來人的行為影響的不同和差異。
以人為中心的數據觀。而在數據的產生過程中,胡本立先生在《以人為中心的數據觀》中認為所有的數據都是人類對客觀世界的主觀反映,人與數據是一個不斷循環的關系:人在產生大量數據的同時實際上也在被數據所影響,因此數據會帶有一定的偏差,這是數據需要治理的基礎性原因。
針對上述問題,依據不確定性數據重構原理和人與數據關系的觀念,蒙格斯提出并設計了一套數據重構方法:將數據按不同維度分為歷史數據和邊際數據、自然數據和行為數據,以及必然性數據和偶然性數據,在剔除偶然性數據的基礎上,對不同的數據設置調整參數并賦予不同的權重。而后在數個實際場景中,蒙格斯實踐并完善了上述方法,最終研發出了TDRU1.0版。
TDRU簡介與應用場景
TDRU主要功能包括智能分類、偏差調整、歷史加權、漂移分箱、變量重構、數據補充、異常檢測、客群分拆、擇優抽樣九大模塊,通過六大核心流程、兩套參數和七個工具協同工作,既可以解決由不確定性帶來的兩類問題,也可以對人與數據之間的偏差進行調整。TDRU不僅是一套方法論,也具備工具的實用性。其獨特之處在于,TDRU是專門針對數據不確定性問題設計的工具,是現有數據處理方法上的明顯進步。
此外,TDRU還獨創了兩套參數,糾偏參數和權重參數,進一步解決不確定的問題以及減輕數據產生過程中出現的偏差。作為不確定性數據工具,TDRU突破了傳統觀念,強調邊際數據的價值,顛覆了對歷史數據“越多越好”的傳統看法,進一步強調了需剔除歷史數據中不可重復的部分,專注于歷史數據的質量處理。
TDRU以一套嚴密的流程設計逐步引領數據從混沌走向清晰。第一步是基礎的數據準備;第二步根據數據特點進行精細分類;第三步是采取適宜的處理方法,處理不可重復數據;第四步是根據數據的抽象度等情況進行參數設定;第五步是對數據進行建模分析,并根據不同應用場景選擇模型;最后通過動態調整不斷優化重構過程。六大步驟逐步推進,形成完整的數據處理鏈條。
TDRU是基于不確定性的底層數據工具,主要作用于數據分析的前期,即數據清洗階段。由于底層工具的屬性,使其應用場景非常廣泛,包括經濟、金融、能源等等眾多需要使用大量數據進行建模分析預測未來的領域,因而其服務對象也非常廣泛,涵蓋全球范圍內各種需要運用數據做預測的企業、金融機構與國際組織。此外,由于不確定性與風險管理的高度相關性,TDRU在風險管理方面也有它獨到的價值。總的來說,TDRU不僅是一個國際上可以廣泛使用的多功能、多領域方法,更是一把銳利的工具,可以解決各種數據質量問題,提升預測未來的準確性。同時,蒙格斯正在開發TDRU與大語言模型結合的一款數據重構智能助理軟件。
TDRU應用案例
目前TDRU已在兩個關鍵場景中獲得有效驗證,并將持續在更多場景中應用和驗證:
(一)金融風控場景
蒙格斯將TDRU應用于某上市銀行的個人信用評分卡上。從模型評估參數角度來看,使用TDRU前,模型AUC約為0.84、KS約為0.57[注釋:AUC(Area Under Curve),為ROC曲線下與坐標軸圍成的面積,AUC越接近1.0,檢測方法真實性越高;等于0.5時,則真實性最低,無應用價值;KS(Kolmogorov-Smirnov):用于評估模型風險區分能力,指標衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強],使用TDRU后,AUC提升至0.88、KS提升至0.59,值得說明的是,這一效果在其多個產品線上都得到了印證。
(二)宏觀經濟預測的場景
蒙格斯團隊運用TDRU對我國GDP做了行業層面的預測,結果顯示:在11個行業大類的預測中平均擬合度超過了92%,而二季度GDP預測中,運用TDRU所達到的預測結果與實際季度GDP(6.3%)的差距不足0.2%,在眾多市面上的預測機構中脫穎而出,詳情如下圖所示。這一結果印證了TDRU對數據質量的提升以及與之而來的模型結果的改善。
未來展望
目前,TDRU1.0版已經在宏觀經濟預測、風險刻畫等方面具備了成熟的應用價值,并已取得了軟件著作專利,同時已經提交發明專利申請。蒙格斯已擬定將與KPMG、數交數據經紀、亞聯咨詢、希研工科等企業展開合作,進一步提升和驗證TDRU在其他領域的使用價值。
今天,蒙格斯正式地向社會各界展示并推出這一實用工具,期望能夠跟各方合作,一同拓展TDRU的邊界和可能性,為提升數據質量、提高各場景預測效果貢獻出一份力量。目前蒙格斯可以提供TDRU相應的咨詢、培訓、數據處理等相關服務,歡迎各數據企業、金融機構、咨詢公司或任何有興趣的機構垂詢,并請大家期待未來TDRU智能助理的誕生。
責任編輯:張文
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)