文/俞勇
中小機構正借鑒資本管理高級法推進管理流程再造,由“干了再算”向“算了再干”轉變,這一趨勢令人鼓舞。“算了再干”,這其中大有文章。
當前,大型金融機構已被監管機構批準使用內部模型來計量風險和監管資本;中小金融機構的積極性也很高,力求借鑒資本管理高級法,調整資產組合,提高資本使用效率,推進管理流程再造,由“干了再算”向“算了再干”轉變。
以上趨勢令人鼓舞。我們看到,強化風險量化管理的理念正在對中國金融業提高識別、計量和控制風險的能力產生重要的影響,中國金融業風險量化管理水平正在迅速提升。
如何更好地“算了再干”?為了回答這一問題,本文談一談金融機構的風險量化模型。為保證風險量化模型的開發質量和實施效果,金融機構所有的風險量化模型都應該參考模型建設和管理技術行業標準進行開發、評估和文檔歸檔。下文總結了國內外信用風險量化模型建設和管理的先進經驗,全面遵循這些要求有利于模型的建設、使用、監控、審批、上線。
模型的設計
模型的設計對模型最終是否能實現其目標起著舉足輕重的作用。為了保證模型的設計可以滿足模型的目標,審批人員應需要關注的是從哪些方面對模型的設計進行評估。總結來說,以下方面要特別留意。
要解決的業務問題
建模人員應該用簡單易懂的語言對模型要解決的業務問題進行描述。這些描述應該包括一個或多個已達成共識的業務原則或核心價值,如客戶的行為、銀行員工的參與度、競爭對手的動作、經濟形勢的變動、合規的需要、公司戰略的考慮等。例如,信用卡部門要設計一個申請評分模型來測算新客戶出現不良貸款的風險。這個模型在新客戶審批過程的應用中,需要審批人員和客戶進行溝通,手動輸入一些關鍵的模型變量數值,在很多情況下還需要對模型的評分結果進行覆蓋。這種模型在業務中的應用方式就需要在模型設計開發的過程中,考慮如何解決驗證客戶提供信息的真實性、員工手動輸入數據的可靠性、對模型評分結果覆蓋的審批案例如何進行表現監控等問題。
目標變量的定義
建模人員應該對目標變量的定義進行如下描述:明確描述目標變量的定義,并說明為何這樣的定義與要解決的任務問題是相關的;明確定義目標變量的表現時間窗(performance window)和觀察時間窗:例如,目標變量可以定義為未來12個月貸款出現至少一次60天或60天以上逾期的概率。在這個定義里,“未來12個月”為表現時間窗,“貸款出現至少一次60天或60天以上逾期”為觀察時間窗。如果模型需要滿足監管部門的要求,此定義是否滿足監管部門的要求;為何選擇這樣的定義而不是其他定義;對定義可能產生的誤解進行澄清,如定義是在客戶層面還是賬號層面的,定義是在觀察期之間的表現還是在觀察期結束的時間點的表現等。
樣本的選擇
建模人員應該對建模樣本的選擇進行如下描述:樣本選擇的方法,如有隨機抽樣和非隨機抽樣(有目的抽樣),其中隨機抽樣方法包括簡單隨機抽樣、等距抽樣、分層隨機抽樣、整群抽樣幾種常用類型;非隨機抽樣也稱為有目的抽樣,包括全面抽樣、最大差異抽樣、極端個案抽樣、典型個案抽樣幾種常用類型;樣本的大小,為了增強可測性和檢驗的準確性,應該盡量增大樣本容量,但同時還應考慮可行性和經濟成本;建模樣本、保留樣本、驗證樣本的劃分;樣本可能有的偏差,如必須通過審批的條件限制、經過客戶自然流失后的樣本、外部因素的變化對樣本的影響如產品特征、競爭對手的策略、經濟周期、季節性因素等。
分析的方法
分析方法的描述應該包括以下內容:數據獲取渠道的描述,主要分為直接渠道和間接渠道:直接渠道主要指通過統計調查獲得的第一手統計數據,如辦理信用卡業務時客戶填寫的個人信息資料、當下十分流行的大數據方法等;間接渠道通常指通過查閱資料或者通過其他網站、平臺獲取的二手數據,如通過WIND或Bloomberg獲得數據;模型的結構,根據所作的假設分析對象的因果關系,利用對象的內在規律和適當的數學工具,構建各個變量間的等式關系或其他的數學結構。同時,在建模過程中還應注意細節問題,如客戶的分群、子模型的架構等;建模技術,在建模過程中常用到的數學方法和計算機技術,如logistic回歸、決策樹、普通線性回歸、分層分析、聚類分析、時間序列等;變量的處理,如變量的剔除、轉換、最大最小值的設置、缺失值的處理、變量相關性的處理等。
模型驗證過程
驗證模型是否有效的描述應包括:隨機保留樣本的描述,如選取記錄集中的一部分(通常是2/3)作為訓練集,保留剩余的部分用作測試集。選取隨機保留樣本的標準、比例、特征等方面的描述;Bootstrap驗證,是非參數統計中的一種重要的統計方法,在執行上常需借助計算機技術得以實現。舉例來說,當總體可用正態分布描述時,其sampling distribution服從正態分布或服從t分布;但當總體不服從正態分布或未知時,我們采用計算機模擬或用漸進分析的方法更加有效;交叉驗證,基本思想是在某種意義下將原始數據進行分組,一部分作為訓練集,另一部分作為驗證集,首先用訓練集進行測試,再利用驗證集來測試得到的模型,以此作為評價模型的性能指標。常見方法有Hold-Out Method,K-fold Cross Validation,Leave-One-Out Cross Validation;外來樣本的驗證,通過外部獲取的樣本對已有的模型進行檢驗,判斷模型的有效性。
模型的局限性
一般來說,模型的局限性可以分為客觀的、不能加以修正的局限性和可以通過人為修正的局限性。驗證客觀局限性的描述主要包括:系統的局限性;模型的局限性等;驗證主觀局限性的描述主要包括:建模時間的規劃;建模人員的配置、人員水平等;業務和數據的理解上的局限性;樣本的局限性;外部因素對模型的影響,如競爭對手的壓力、合規時限的壓力等。
模型的進度
主要包括有限資源的有效配置,在可以利用的資源數量一定的條件下,通過調配進度使項目工期盡可能短;建模時間的規劃,幾個有效時間節點的把控,如是否有外部競爭或合規方面的壓力而需要在短時間內完成建模等。
數據處理
如何進行數據處理,是一個非常關鍵的環節。對于該環節,綜觀國內外經驗,可以從以下八個方面給予關注。
建模原數據源的描述分析
建模數據的評估主要包括:數據的獲取渠道,如內部數據集市、歷史數據存檔、第三方公司提供的數據等;數據的樣本記錄數及每一條記錄所代表的含義;數據的變量的個數;數據的收集時間。
模型變量的描述
模型變量的描述應該包括對每一個變量定義的準確描述及變量的值所對應的含義。定義和使用變量時,通常要把變量名定義為容易使用閱讀和能夠描述所含數據用處的名稱,而不要使用一些難懂的縮寫如A或B2等。例如:編寫一個銷售蘋果的軟件時,我們需要兩個變量來存儲蘋果的價格和銷量。此時,可以定義兩個名為Apple_Price和Apple_Sold的變量。每次運行程序時,用戶就這兩個變量提供具體值,這樣看起來就非常直觀。
建模樣本的大小和目標變量的分布
對此部分的描述應該包括:建模樣本的大小是如何決定的;如何獲得各個細度的數據記錄并有效的控制成本;目標變量的分布,包括異常值、多峰性分布、負值的處理等。
數據時間窗定義
對此部分的描述應該包括:目標變量表現的觀察時間:采用滾動時間窗或固定時間窗的方法;模型獨立變量的觀察時間;模型目標變量和獨立變量數據是否有時間不足的情況,如有些樣本的目標變量表現觀察期不足,模型變量的觀察時間不足等。
數據源有效數據的頻率和缺失值處理
對此部分的描述應該包括:樣本變量數據的有效頻率;樣本記錄中有效記錄的頻率;某些變量或記錄數據缺失的原因,這些缺失原因是否會對模型產生影響或偏差;在建模過程中,如何對數據源的各種數據缺失原因進行考慮。
每個模型獨立變量的缺失值頻率;模型獨立變量的缺失值是否有具體的含義;缺失值出現的頻率是否穩定;有缺失值的變量在模型中的重要性及表現的穩定性;每一個變量對缺失值的處理方法,包括采用中位數、平均數、最大或最小值、最好或最壞值替代,單變量處理,多變量處理,以變量減少、建模或評分、或拒絕原因算法為目標的處理等。
變量最大、最小值處理
對此部分的描述應該包括:每個變量的最大或最小值;對最大或最小值的處理方法;處理后對這些變量取值范圍的影響以及數據記錄表現的影響;以變量減少、建模或評分、或拒絕原因算法為目標的最大或最小值設置;這些設置是否能防止所有可能出現的取值錯誤。
變量轉換
對此部分的描述應該包括:單變量轉換,如反正弦、對數、開方、Box-Cox等;多變量轉換,如變量之間相除、相減、相加、相乘等;變量取值的劃分或歸成大類;變量轉換的處理程序及編程方法;這些設置是否能防止所有可能出現的取值;采用Weight of Evidence(WoE)方法(該方法在生態風險評估ERA領域使用多年,能結合多方面數據給出總體風險評估)進行分欄并計算Information Value來驗證。
數據的外部因素
可能影響目標變量表現的外部因素主要有:國家或區域的經濟環境;宏觀經濟指標;產品特征;獲客渠道;主要競爭對手的策略;天氣因素;季節性周期因素等。
模型的選擇
模型審批人員應該對建模的方法及模型的表現是否能夠到達預期的目標進行診斷和評估,這是一個至關重要的步驟。從具體實施的角度而言,評估應該至少包含以下九個方面內容。
子模型分割方法
模型分割(子模型)的方法應該包括以下內容:分割優化的標準及目的:如對無數據記錄的處理、模型表現的連續性考慮、變量相關性的區格、變量預測能力的區格等;選擇分割的手段,如歷史數據分析、CART分析、貝葉斯樹等;采用分割后對模型的表現所帶來的提升的數據支持,尤其要說明表現的提升足以覆蓋由于分割所帶來的模型復雜度增加的負擔。
變量剔除
模型獨立變量剔除或合并的考慮因素包括:變量缺失的頻率;變量的波動性;變量組合;變量聚類,將集合分成由類似的對象組成的多個類;變量之間的相關性檢驗,如采用相關系數矩陣,Pearson 相關系數或者Spearman 相關系數方法;不同分割模型(子模型)變量的同質性檢驗,用卡方統計量驗證不同子模型是否來自同一總體;變量選擇的方式:如向前選擇、向后選擇、逐步選擇等;變量的交叉驗證。
模型優化的標準
對此部分的描述應該明確定義模型優化的標準,進而說明為何候選模型是最佳的選擇。如果選擇多個指標,應說明多個指標的選擇標準,例如:KS值, 決策邊際變現等。對于需要滿足監管要求的模型,要將監管要求融入到選擇模型優化的過程中。
模型參數的確定
對此部分的描述應該明確模型選擇的方法,包括:如何確定模型的參數;如何從眾多的候選模型中選擇最終的模型;VIF(Variance Inflation Factor)檢驗,判斷模型是否存在多重共線性問題,經驗判斷方法表明:當0
建模程序的結構
對此部分的描述應該說明建模使用的程序的結構,包括:處理原始數據的所有的程序,從開始到結束;程序是否具有恰當的標注和結構說明,如數據處理部分,變量選擇部分,候選模型比較部分等;程序是否被妥善統一存檔,存檔是否可以被訪問,程序是否可以被其他人運行這些具體備注說明。
建模程序細節
對此部分的描述應該選擇一段建模程序進行評估,評估內容包括:程序的標注是否充分,程序的結構是否容易理解;變量的名稱、標識是否簡單易懂;容易誤解或復雜的部分是否有特殊標注;程序引用的模塊是否有相應的文檔;程序格式是否恰當使用縮進和空格;程序的作者是否標注;在程序的開發、運行和程序的重復使用之間是否保持恰當的平衡。
模型的表現
對此部分的描述應該評價模型對目標行為預測的能力,主要包括:建模樣本的表現;非建模樣本的表現:如果和建模樣本表現不同,要解釋表現不同的原因;對未來樣本表現的預期;對所有未來可能影響模型表現的不確定性因素是如何考慮的。
模型是否擬合不足或擬合過度
任何模型都可能會有擬合不足或擬合過度的問題,對擬合度的評估可以在幾個不同的層面展開,如使用可決系數對模型進行擬合優度檢驗,使用模擬數據或其他歷史數據對模型進行再次驗證,是否有以往的經驗或數據來驗證模型等。
殘差分析
殘差分析主要是:用殘差證實模型的假定,如用殘差圖判斷模型效果與樣本數據的質量,檢驗模型是否滿足基本假定,以便對模型作進一步的修改;用殘差檢測異常值和有影響的觀測值,如果異常值是一個錯誤數據,如是由記錄錯誤造成,應該修正數據,以便改善模型效果;如果是由于模型的假定不合理,使得標準化殘差偏大,應該考慮修正模型;如果完全是由于隨機因素造成的,則應該將該數據視為有效觀測值,予以保留。同時應注意的問題有:殘差是否是隨機分布的;一個或幾個記錄的變化是否會對整個模型有較大的影響;不同的取樣方法是否會產生不同的模型或不同的殘差分布。
模型的最終審批
模型審批人員在最終批準模型之前,應對以下三個方面進行評估。
模型替換分析
任何模型都會有幾個不同的版本,如原有模型,簡單的業務邏輯替代的模型,和第三方公司的模型。模型審批人員應該就最終的模型版本和其他版本進行比較,進行優劣分析,包括:如果不用這個模型,業務模式會如何展開?對原來被否決,新模型會批準的樣本進行分析并評估對業務的影響;待審批的模型和其他模型相比,有哪些優勢?這些優勢是如何獲得的,它們是否符合基本的業務邏輯;模型在應用的目標客戶群內的主要的獨立變量的分布是否符合業務邏輯?和其他模型的版本相比,它們是否和上述的新版本的模型優勢相吻合?應用測試技術對現有模型進行挑戰,模型上線的版本策略如過度階段和原模型或其他規則共用等。
監控策略
模型的監控策略應包括以下內容:監控的主要指標,頻率;監控報告的審閱人員及存檔流程;對于監控的指標來講,穩定性指標和準確性指標通常只是最低標準;穩定性指標應該包括模型目標變量和獨立變量的穩定性監控;模型指標的參考客群是如何定義的;模型的目標應用客群如果發生變化,如何能夠識別目標客群的變化?如何對模型的表現進行有效的跟蹤?監控程序是否經過調試和驗證;如果數據導入出錯,如何對錯誤信息進行識別和報警?如果模型運行失敗,業務開展的備用方案是什么?識別模型失敗的流程和重新啟動模型運行的流程各是什么?在什么情況下,建模人員需要對模型進行重新評估或重新建模?明確定義這些情況下主要表現指標的臨界值。
未來規劃
模型的未來規劃應描述模型如何進一步提高,具體包括:如何獲得更客觀全面的樣本?客觀全面的樣本應該包括正常業務運營之外的樣本,例如申請審批的樣本應包括所有申請客戶的表現而不僅僅是通過審批的客戶的表現;對于審批模型的臨界值附近的樣本,業務是否需要加大樣本收集的力度為未來的建模做準備;樣本收集的經濟成本和流程成本各有多大?投入是否值得?未來的業務規劃的大方向是什么?模型的樣本采集策略應如何配合業務發展的需要?是否有其他數據源或建模技術能夠進一步提升模型的表現?
【俞勇,恒豐銀行首席風險官、中國人民大學兼職教授,清華大學深圳研究生院校外導師,先后在美國摩根大通銀行、美國運通公司等從事新資本協議、戰略規劃、風險管理、金融衍生品交易與定價模型、金融信息安全等工作,曾任職于平安銀行風險管理部兼新資本協議辦公室總經理、中國銀行業監督管理委員會監管二部,參與起草《商業銀行資本充足率管理辦法》等中國銀行業監管法規文件,具有全面的國際銀行先進風險管理工作經驗和國內銀行風險管理工作經驗。著有《貨幣、銀行與經濟》、《銀行全面風險管理與資本管理》、Asset Returns and Demographic Effects、Quality Choice Simulation and Implication Based on Individual Conjoint Analysis 等。本文原標題為《從“干了再算”到“算了再干” 談一談風險量化模型 》,刊載于《當代金融家》2015年第7期】
金融業創新層出不窮,行業發展面臨挑戰與機遇。銀行頻道公眾號“金融e觀察”(微信號:sinaeguancha),將為您提供客觀及時的新聞精粹,分享獨家、深度、專業的評論點睛。