財經縱橫新浪首頁 > 財經縱橫 > 基金 > 正文
 

俞文冰:數據挖掘在投資中的應用


http://whmsebhyy.com 2006年03月30日 12:48 全景網絡-證券時報

  □國聯基金管理有限公司 俞文冰

  國內外大量實證研究結果表明:上市公司定期公布的財務報告具有很強的信息含量,但是當期會計盈余數據的信息會在披露前后在股票市價中迅速得以體現。因此對于中長期投資者來說,重要的是預見未來。質地優良且未來具有較高盈利增長能力的公司是中長期投資者(包括普通投資者,證券投資基金和券商)普遍關注的對象,因為只有這類公司才能給投資
者帶來持續的回報。而財務報告包含了大量描述公司經營狀況的數據。這些數據應能為投資者提供關于公司未來盈利能力的信息。對于中長期投資者而言,需要做的就是利用這些信息挖掘出未來能夠具有較高盈利水平同時又具有較好的成長性公司。因此,站在投資者的立場,以下問題是值得研究的:(1)這些財務報告中是否包含關于公司未來盈利情況的信息?(2)若回答是肯定的,是否可以找到較好的方法來利用這些信息,獲得較精確的預測效果?(3)若能夠找到較精確的預測方法,這個預測是否是有效的?(4)如果盈利優質成長的預測模型是有效的,那么該模型選出的投資組合能否活的超額收益?

  國內外學者的研究結果對第一個問題做了肯定的回答,即財務報告中是包含關于公司未來盈利情況的信息。但是現有的各種預測方法,無論是分析師的研究還是常規的統計學和計量經濟學模型都有其不足之處。分析師研究主觀性強、工作量大。常用統計計量模型形式單一,可能存在過度擬合而且不是以投資為導向的缺點。

  針對這些不足之處,筆者采用數據挖掘方法進行彌補。數據挖掘是通過自動或半自動化的工具對大量的數據進行探索和分析的過程,目的是發現其中有意義的模式和規律。其在數據庫營銷、市場細分、風險分析,欺詐甄別和客戶資源管理等領域的應用已經相當成熟。數據挖掘模型具有靈活高效的特點,除了經典統計的回歸模型外,數據挖掘還有決策樹和神經網絡模型等機器學習和人工智能的非參數、非線性模型,用以擬合各種復雜的狀況。由于數據挖掘模型非常的強大,很容易造成過度擬合,意即:所建立的模型,不僅解釋了可以在總體中觀察到的變動情況,而且還解釋了由于樣本個體的波動和誤差(也稱為“噪音”)造成的波動,從而導致模型無效。為了建立真正有用的模型,我們要盡可能防止過度擬合,數據挖掘還采用專門的方法對模型的有效性進行評估以保證預測的穩健可靠。

  本文首先采用Logistic回歸,決策樹和神經網絡建立了廣義線性和非線性數據挖掘預測模型,試圖尋找未來具有較好的業績和增長能力的上市公司,取得了較好的預測效果。為了保證模型的穩健可靠。再建立完模型以后,又采用“數據拆分”和“瞻前顧后”兩種方法從不同的方面對于預測的有效性進行評估,確定預測精度無論是在當年的獨立數據集,還是在其他年份都是穩健可靠的。最后,以數據挖掘選股為基礎,建立了投資組合,經過實證模擬,確認可以得到較高的絕對和超額的投資收益。因此本文認為,在投資領域應用數據挖掘是可行而且有效的。

  <國聯基金><俞文冰>


    新浪聲明:本版文章內容純屬作者個人觀點,僅供投資者參考,并不構成投資建議。投資者據此操作,風險自擔。

發表評論

愛問(iAsk.com)


評論】【談股論金】【收藏此頁】【股票時時看】【 】【多種方式看新聞】【打印】【關閉


新浪網財經縱橫網友意見留言板 電話:010-82628888-5174   歡迎批評指正

新浪簡介 | About Sina | 廣告服務 | 聯系我們 | 招聘信息 | 網站律師 | SINA English | 會員注冊 | 產品答疑

Copyright © 1996-2006 SINA Corporation, All Rights Reserved

新浪公司 版權所有