新浪財經訊 “第十屆中國國際金融論壇”于2013年10月27-28日在上海舉行。28日下午召開大數據時代的互聯網金融發展及電子支付技術創新論壇。拍拍貸金融信息服務有限公司總裁張俊出席論壇并發表了自己的觀點。張俊表示,即使是千億級別,可能剛剛占一點大數據的邊。所以這個數據量是一個很重要的問題,沒有這個數據量,你談大數據的話就是在忽悠你。
以下是演講實錄:
【張俊】:前段時間看了一個案例,大家在說什么是大數據,其中有一個專家說有個案例很好,什么案例呢?大家都喜歡喝牛奶,養奶牛的農場主發現每個奶牛在不同的時間段產量不一樣,一開始說跟擠奶工的力度有關系,擠奶工也說不清楚。擠奶的過程基本上是靠熟練工靠新人來摸索。農場主覺得心里很不踏實,對于他們來說希望這個牛奶的產量越高越好。這時候請了專家來咨詢到底怎么解決這個問題。專家分析說這里面影響牛奶產量可能有些因素,比如有關生理的方面,有沒有吃飽,今天的溫度怎么樣,濕度怎么樣,等等這些問題。當然也有可能跟奶牛的心理狀況有關系,今天怎么樣,有沒有跟鄰居吵過架等等。
后來另一個專家說這樣挑1百頭牛,把每天的產奶量記錄下來,什么時候產的,擠奶的時候力度怎么樣,把一些緯度的數據都記錄下來,同時還給每個奶牛圈裝上攝象頭,一天24小時觀察奶牛的狀況,經過一個多月的觀察,最后分析出來奶牛在每天的某些時間吃完東西,消化兩小時以后最后得出一個結論:這時候擠奶,可能是產量最高的。最后找到了最終的解決之道。
這是一個案例,這樣引出想跟跟大家探討的三個問題:第一,現在是不是大數據時代?從我來講現在不是大數據時代。大數據的前提是數據量要足夠大。回顧到奶牛的案例,一個奶牛廠撐死1百萬奶牛足夠多了吧?像1百奶牛的數據量是不夠的,非常少。這樣就叫大數據不是很笑話嗎?
全國有十幾億人,每個人身上有各種屬性的數據。可能銀行在看你個人的狀況來提供額度值,有可能看1百項數據。這是千億級別,可能剛剛占一點大數據的邊。所以這個數據量是一個很重要的問題,沒有這個數據量,你談大數據的話就是在忽悠你。有的說我們公司的大數據特別牛B,要擔心了。
剛才說銀行有很多大數據,銀行能不能做大數據,覺得現階段銀行也做不到大數據。還是數據量,2億用戶,怎么看一個人,主要是看收入能力和個人狀況,如果是白領的話,會看工資收入,繳費記錄,當前的市場環境各方面加在一起不到1百個數據緯度,乘以2億用戶,就是2百億的用戶量。
另外一方面,它的很多數據都是結構化的數據,我再看大數據的時候,一,數據量要足夠多。二,要去分析非常多的非結構化數據,這是一個全量分析的概念,不是抽樣分析。比如我們看一個人的一張照片,這個照片上其實隱含了很多數據,如果作為結構化數據動帶的話,就是一張照片,如果當成非結構化的數據來看,這個照片里面隱含了很多信息,它當時的心理狀況怎么樣,周圍跟他一起合營的人跟他是什么關系,在什么地方,可以出來很多數據。假設加入這些數據緯度的話,數據量就有一個集合級數的上升。我覺得銀行跟大數據比較近,因為有這么多的交易記錄。
銀行既然有這個數據,那為什么現在不去做呢?這里有一個思路的問題,思路決定出路,根本沒有想到這個數據怎么用。好像給一個人額度的時候,看你的還款能力,衡量一個人還款能力的就是這些數據緯度,從P2P的角度來講可能就不是這樣了。
想探討的第三個問題:P2P是不是跟大數據結合。P2P是大數據嗎?覺得現階段還談不上真正的大數據,但在這條路上。思路決定出路,首先要知道說這個努力的方向是哪里,怎么樣來拓展我的數據緯度。還是一樣回到銀行受信時候,看的是個人的還款能力,這是最主要的衡量因素。
開發貸看你的違約成本。什么叫違約成本?在座各位借給你們50萬不會跑,但是放在某些人身上,他可能不會還款了。怎么看違約成本,有很多的方法,可以拓展出非常多的數據緯度。這些里面比如像現在看一個人的非結構化數據,你是一個微博用戶,你有多少粉絲數,你的粉絲里面大概是一個什么樣的構成,每天發多少微博,微博平均被轉化多少次,一般關注誰,關注什么的樣話題和熱點,在騰訊微博上、QQ上、開心上、人人上,各方面的數據緯度都可以去分析、去看,最終看一個人的違約成本,給到你的受信會低于違約成本。
一個用戶的數據緯度有的可能超過3千個緯度,平均每個都有2千個緯度。我們有幾千萬用戶的時候,拓展用戶的非結構化緯度,可能就到了萬億級別的數據量,現在計算速度已經不是瓶頸,到這個階段我相信我們在大數據會拓展出一片新的天地。屆時再跟各位分享開發貸在大數據方面取得什么樣的進展。我覺得這是一個非常好的時代,但我們現在正在這條路上走,而且覺得P2P最有可能,最有機會跟大數據結合,因為我們是銀行的補充,我們需要采取跟銀行不一樣的方式,我們去服務大規模、小額度的吊絲用戶,好處是積累了數據,有了創新的方法,所以有可能會成為未來真正牛B的大數據公司。
謝謝大家!