文/李卓城 編輯/徐昭榮
零售銀行為了給客戶提供更加優(yōu)質(zhì)的服務(wù),需要通過分析銀行系統(tǒng)本身數(shù)據(jù)庫所保留的客戶資料信息,對客戶進行分類管理。
近年來,大數(shù)據(jù)已成為科技界和企業(yè)界關(guān)注的熱點,越來越多的企業(yè)和研究者正在關(guān)注大數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)的分析與挖掘技術(shù)在科學(xué)界正在如火如荼的展開,各種大數(shù)據(jù)的新算法被開發(fā)研究出來,例如近年來發(fā)展比較完善的一種數(shù)據(jù)分析挖掘算法支持向量機。
與此同時,大數(shù)據(jù)分析在商業(yè)中的運用受到人們的追捧,各種大數(shù)據(jù)在商業(yè)中成功運用的案例層出不窮,比如美國大型零售商target公司的廣告精準推送。本文將對大數(shù)據(jù)分析技術(shù)以及大數(shù)據(jù)分析技術(shù)在零售銀行行業(yè)的作用進行一番探討。
什么是大數(shù)據(jù)
2011 年,麥肯錫在題為《海量數(shù)據(jù),創(chuàng)新、競爭和提高生成率的下一個新領(lǐng)域》的研究報告中首次提出大數(shù)據(jù)的概念。報告認為數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,數(shù)據(jù)中蘊含著巨大的價值,這些價值將導(dǎo)致數(shù)據(jù)成為重要的生產(chǎn)因素。2012年《紐約時報》的一篇專欄中寫到,“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,最終決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認為大數(shù)據(jù)是“未來的新石油”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響。
進入21世紀,互聯(lián)網(wǎng)的興起促成了數(shù)據(jù)量的大規(guī)模增長。互聯(lián)網(wǎng)時代,幾乎全民都在制造數(shù)據(jù),與此同時,數(shù)據(jù)的形成也極其豐富。一方面,既有社交網(wǎng)絡(luò)、多媒體、協(xié)同創(chuàng)造、虛擬服務(wù)等應(yīng)用所主動產(chǎn)生的數(shù)據(jù);另一方面,又有搜索引擎、網(wǎng)頁瀏覽過程中被記錄、被收集的數(shù)據(jù)。該階段數(shù)據(jù)的特點是用戶原創(chuàng)、主動、交互。
根據(jù)國際數(shù)據(jù)公司(IDC)的研究報告,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(數(shù)據(jù)存儲單位,澤字節(jié),等于1024艾字節(jié)或270個字節(jié)),且增長趨勢遵循新摩爾定律,預(yù)計到2020年,全球數(shù)據(jù)量大約每兩年翻一番,全球?qū)碛?5ZB的數(shù)據(jù)量。正是由于信息技術(shù)的發(fā)展,大數(shù)據(jù)才能生成和發(fā)展。大數(shù)據(jù)技術(shù)正是從海量的、多樣化的數(shù)據(jù)中,快速獲得有價值信息的能力。
大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、整理成為人類所能解讀的信息。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)分析是指不用隨機分析抽樣調(diào)查的方法,而采用對所有數(shù)據(jù)進行分析的方法。
基于目前對大數(shù)據(jù)的認識,通常認為大數(shù)據(jù)具備了4V特點,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。這四個特點從四個方面描述了大數(shù)據(jù)分析技術(shù):第一,數(shù)據(jù)體量巨大。從TB級別到PB級別,甚至躍升至EB乃至ZB級別;第二,數(shù)據(jù)類型多樣。包括網(wǎng)絡(luò)文本、日志、視頻、圖片、地理位置信息等各種結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都有,一切信息皆為數(shù)據(jù)。第三,處理速度快。利用各種大數(shù)據(jù)分析工具,比如hadoop和SPSS,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點和傳統(tǒng)的數(shù)據(jù)分析技術(shù)有著本質(zhì)的區(qū)別。第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,挖掘出數(shù)據(jù)內(nèi)部隱藏的相關(guān)關(guān)系將會帶來很高的價值回報。
與傳統(tǒng)的邏輯推理研究不同,大數(shù)據(jù)研究是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計性的搜索、比較、聚類和分類等分析歸納。大數(shù)據(jù)分析比較關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,所謂“相關(guān)性”是指兩個或兩個以上變量的取值之間存在著某種規(guī)律。“相關(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng))。因此大數(shù)據(jù)是側(cè)重找出相關(guān)關(guān)系而不是找出因果關(guān)系。也許正是由于大數(shù)據(jù)分析側(cè)重于尋找相關(guān)關(guān)系,才促使大數(shù)據(jù)分析技術(shù)在商業(yè)領(lǐng)域廣泛應(yīng)用。商業(yè)的運用在于盈利,因此只要從數(shù)據(jù)挖掘中發(fā)現(xiàn)某種因素與增加盈利有較強的關(guān)聯(lián)性,然后全面開發(fā)該相關(guān)因素就行。
大數(shù)據(jù)分析建模的基本思路技巧
有了大量數(shù)據(jù)之后,下一步就是分析這些數(shù)據(jù),期望通過合適的數(shù)據(jù)分析挖掘技術(shù)建立模型找到蘊藏在數(shù)據(jù)下面的客觀規(guī)律。大數(shù)據(jù)分析技術(shù)經(jīng)過這么多年的發(fā)展,已經(jīng)形成了一些分析建模的基本思路。CRISP-DM(即“跨行業(yè)數(shù)據(jù)挖掘標準流程”的縮寫)是一種業(yè)界認可的用于指導(dǎo)大數(shù)據(jù)分析挖掘工作的方法。
CRISP-DM認為在大數(shù)據(jù)分析中存在一個大數(shù)據(jù)分析挖掘生命周期模型。在這個生命周期模型中存在著商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估和結(jié)果部署這六個階段。圖1中展示了這六個階段的關(guān)系,其中箭頭的多少表示各個階段間依賴關(guān)系的使用頻率和重要程度,每個階段之間并不一定要嚴格遵守順序。實際上,大多數(shù)項目都會根據(jù)需要在這些不同的階段之間來回移動。
商業(yè)理解通常是指理解業(yè)務(wù)的實際類型,業(yè)務(wù)上的實際問題并且嘗試盡可能多地了解數(shù)據(jù)挖掘的業(yè)務(wù)目標。數(shù)據(jù)理解是指數(shù)據(jù)理解階段包含深入了解可用于挖掘的數(shù)據(jù),此過程包括初始數(shù)據(jù)的收集,初始數(shù)據(jù)的描述以及數(shù)據(jù)質(zhì)量的驗證。數(shù)據(jù)準備是數(shù)據(jù)挖掘最重要的階段之一,通常需要花費大量的時間。據(jù)估算,實際的數(shù)據(jù)準備工作通常占50-70%的項目時間和工作量。
數(shù)據(jù)準備通常包含以下任務(wù):合并數(shù)據(jù)集和記錄、選擇數(shù)據(jù)子集樣本、匯總記錄、導(dǎo)出新的屬性、排序數(shù)據(jù)以便建模、刪除或替換空白值或缺失值、分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集等。經(jīng)過數(shù)據(jù)準備,下一階段就是建立模型。建模時通常會執(zhí)行多次迭代,選擇合適的模型算法,運行多個可能的模型,然后再對這些參數(shù)進行微調(diào)以便對模型進行優(yōu)化,最終選擇出一個最佳的模型。在模型評估階段,需要對項目結(jié)果是否達到業(yè)務(wù)成功標準進行評估。此步驟的前提條件是對聲明的業(yè)務(wù)目標有清晰的了解,因此在前期的商業(yè)理解越發(fā)顯得重要。模型評估完成之后就進入到結(jié)果部署階段,在該階段就是將前期選擇出來的最佳模型應(yīng)用到實際業(yè)務(wù)中去,并得到最終報告。
大數(shù)據(jù)分析通過預(yù)測未來趨勢及行為,做出知識的決策。大數(shù)據(jù)分析挖掘的主要目標功能有以下幾個:
第一,自動預(yù)測趨勢和行為。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。比如在GOOGLE流感分析案例中預(yù)測流感爆發(fā)的時間和地點。
第二,關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識,若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析旨在找出具有強相關(guān)關(guān)系的幾個屬性。典型案例是啤酒和尿布的關(guān)聯(lián)分析,關(guān)聯(lián)分析經(jīng)常用在電子商務(wù)的產(chǎn)品推薦中。
第三,聚類。數(shù)據(jù)庫中的一些相類似的記錄可以劃歸到一起,即聚類。聚類常常幫助人們對事物進行再認識。在社交網(wǎng)絡(luò)分析中經(jīng)常用到聚類技術(shù)。
大數(shù)據(jù)分析技術(shù)經(jīng)過這幾年的發(fā)展,已經(jīng)形成了一些比較成熟穩(wěn)定的模型算法。常見的模型算法有關(guān)聯(lián)規(guī)則分析(Apriori)、決策樹、神經(jīng)網(wǎng)絡(luò)、K-MEANS聚類、支持向量機、多元線性回歸、廣義線性回歸、貝葉斯網(wǎng)絡(luò)、Cox以及K近鄰等。這些算法模型有的適合預(yù)測趨勢和行為,有的適合關(guān)聯(lián)分析,有的適合聚類分析;每種模型算法都有各自的優(yōu)劣性,我們可以針對不同的場景選擇合適的算法模型進行大數(shù)據(jù)分析挖掘。一些常用的模型算法的優(yōu)劣性和適用場合如表1所示:
表1:大數(shù)據(jù)常用模型算法的特征分析
模型算法 優(yōu)點 缺點 應(yīng)用場合
關(guān)聯(lián)規(guī)則分析(Apriori) 算法容易理解,能夠用簡單的if-then 規(guī)則描述數(shù)據(jù)之間的完備關(guān)系;得出的規(guī)則具有可讀性;能處理連續(xù)和離散的數(shù)據(jù) 數(shù)據(jù)間可能不存在強規(guī)則;由于要查找整個數(shù)據(jù)庫中的所有可能規(guī)則,可能會出現(xiàn)組合爆炸問題 數(shù)據(jù)形式規(guī)范,分組容易;零售業(yè)和時間序列分析,電子商務(wù)中的產(chǎn)品推介
決 策 樹 最容易理解,當(dāng)求解基于多個復(fù)雜屬性的特定目標值時其性能較佳,可以產(chǎn)生相互獨立的規(guī)則 預(yù)測連續(xù)屬性值時性能較差;不能分析和時間有關(guān)的屬性變量 用于進行分類的場合;要求模型具有較強的解釋性的時候
神經(jīng)網(wǎng)絡(luò) 通用性強,對非線性、有噪音的復(fù)雜數(shù)據(jù)分析效果良好;能處理規(guī)模較大的數(shù)據(jù)庫,能預(yù)測連續(xù)數(shù)據(jù),分類或聚類離散數(shù)據(jù);能處理有噪音或?qū)傩灾涤腥笔У臄?shù)據(jù) 無法直觀解釋得到的規(guī)則,結(jié)果較難解釋;算法收斂得太早,容易出現(xiàn)局部最優(yōu)解或者過擬合現(xiàn)象 用于進行分類預(yù)測的場合,并且變量之間線性關(guān)系難以解釋的情況下
聚類(K-MEANS) 應(yīng)用簡單,無需先驗知識,能處理分類型數(shù)據(jù),數(shù)字型數(shù)據(jù)和字符型數(shù)據(jù) 聚類的個數(shù)需要人為事先定好,難以選擇適當(dāng)?shù)木嚯x函數(shù)和屬性權(quán)值 對數(shù)據(jù)按照屬性進行歸類,發(fā)現(xiàn)離群數(shù)據(jù)和不符合預(yù)測模型的數(shù)據(jù)
支持向量機 對數(shù)據(jù)適應(yīng)性比較強,魯棒性強 經(jīng)典的算法只能分為兩類,分多類比較麻煩 用于進行分類預(yù)測的場合,在神經(jīng)網(wǎng)絡(luò)不好用的情況下
零售銀行中的大數(shù)據(jù)類型
在現(xiàn)代經(jīng)濟生活中,個人和家庭生活與銀行零售業(yè)務(wù)聯(lián)系密切,比如投資理財、電子商務(wù)、移動支付、家居生活以及外出旅游無不與銀行零售業(yè)務(wù)緊密相連。正因為零售銀行的客戶龐大、分布廣泛、業(yè)務(wù)量大且復(fù)雜,因此零售銀行對業(yè)務(wù)的管理、風(fēng)險的控制、客戶的營銷都有不同的要求。并且隨著互聯(lián)網(wǎng)金融的發(fā)展,銀行零售業(yè)務(wù)越來越受到其他非銀機構(gòu)的挑戰(zhàn),零售銀行對其業(yè)務(wù)的穩(wěn)固及發(fā)展面臨著新的壓力并提出了新的要求。要應(yīng)對這種挑戰(zhàn),不斷擴展業(yè)務(wù),創(chuàng)造新的利潤空間,就必須對市場需求進行周密的調(diào)查研究,并且在調(diào)查研究的基礎(chǔ)上發(fā)現(xiàn)價值點,而這些正好是大數(shù)據(jù)分析的用武之地。
零售銀行經(jīng)過了這么多年的發(fā)展,尤其是在最近幾年互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)快速發(fā)展的前提下,本身已經(jīng)積累了大量的數(shù)據(jù),這些數(shù)據(jù)幾乎涵蓋了市場和客戶的各個方面。零售銀行的這些數(shù)據(jù)主要包括以下幾個方面:
第一,現(xiàn)有客戶的屬性數(shù)據(jù)。客戶的屬性數(shù)據(jù)包括客戶的性別、年齡、收入以及客戶的職業(yè)。這些數(shù)據(jù)是客戶在開戶或者購買產(chǎn)品時留下來的屬性數(shù)據(jù),通過這幾個屬性基本上可以描述客戶的大概情況,比如收入水平、資產(chǎn)狀況等。
第二,客戶的賬戶信息。客戶的賬戶信息里包含了客戶的賬戶余額、賬戶類型以及賬戶狀態(tài)。客戶的賬戶信息記錄了客戶當(dāng)前的一種資產(chǎn)狀態(tài),對零售銀行分析客戶以及挖掘客戶起到了重要作用。
第三,客戶的交易信息。客戶的交易信息里包含了客戶交易的日期和時間,交易的金額以及交易的類型。通過這些我們可以知道客戶交易的頻度及總額,由此可以推斷出客戶的交易喜好以及資產(chǎn)能力。
第四,客戶的渠道信息。渠道信息是指客戶是偏好去銀行柜臺辦理業(yè)務(wù),還是通過互聯(lián)網(wǎng)客戶端或者移動互聯(lián)網(wǎng)客戶端來辦理業(yè)務(wù)。客戶的渠道信息對客戶的管理及拓展至關(guān)重要。
第五,客戶的行為信息。在互聯(lián)網(wǎng)時代,各個零售銀行都有網(wǎng)銀日志和手機銀行日志,這些日志記錄了客戶辦理業(yè)務(wù)的行為信息。相對于前幾個方面的數(shù)據(jù)信息,網(wǎng)銀日志和手機銀行日志信息是一種非結(jié)構(gòu)化的數(shù)據(jù)信息。
對比以上數(shù)據(jù)來源,可以發(fā)現(xiàn)零售銀行的數(shù)據(jù)信息主要包括以下幾類:客戶的屬性、交易習(xí)慣、渠道偏好以及行為信息。這些數(shù)據(jù)信息儲存于零售銀行的網(wǎng)銀系統(tǒng)、客戶管理系統(tǒng)、電子支付平臺、ECIF系統(tǒng)、核心銀行系統(tǒng)或者其它系統(tǒng)里面。這些系統(tǒng)對數(shù)據(jù)的保存及分析提供了極大的便利性和準確性。
大數(shù)據(jù)分析對零售銀行的商業(yè)價值
近幾年來,大數(shù)據(jù)分析在各個相關(guān)領(lǐng)域飛速發(fā)展,零售銀行也不例外。鑒于零售銀行的業(yè)務(wù)類型以及零售銀行的數(shù)據(jù)類型,大數(shù)據(jù)分析在零售銀行的商業(yè)價值主要存在于以下幾個方面。
第一,客戶的精細分類和檔案管理。零售銀行為了給客戶提供更加優(yōu)質(zhì)的服務(wù),需要通過分析銀行系統(tǒng)本身數(shù)據(jù)庫所保留的客戶資料信息,對客戶進行分類管理。
相關(guān)統(tǒng)計表明,只有大約20%的客戶能給銀行帶來最大收益,因此找到這20%的優(yōu)質(zhì)客戶就成為零售銀行的一大主要目標。而根據(jù)客戶的數(shù)據(jù)信息資料找出客戶背后的社會、經(jīng)濟、消費特征,進而可以推斷出客戶的消費能力、消費水平和消費習(xí)慣,并可以計算出各個客戶對銀行的貢獻率,最終根據(jù)這些特征對客戶進行精細化的分類及管理。通過這些分類和管理能給零售銀行帶來最大的收益,而這些操作只能通過大數(shù)據(jù)分析才能實現(xiàn)。
第二,客戶流失的預(yù)防和精準營銷。從行業(yè)經(jīng)驗來看,發(fā)展一個新客戶的成本遠遠大于維持一個原有客戶的成本,尤其是優(yōu)質(zhì)客戶。如今,銀行零售業(yè)務(wù)的競爭非常激烈,市場區(qū)域飽和,因此維持原有客戶防止客戶流失顯得愈發(fā)重要。如何保留原有的客戶并且不斷為這些客戶提供優(yōu)質(zhì)的增值服務(wù)是零售銀行業(yè)面臨的一項重要挑戰(zhàn)和機遇。目前大數(shù)據(jù)分析可以幫助零售銀行精細的定位和劃分客戶,從而找出具有潛在流失可能性的現(xiàn)有客戶。通過對數(shù)據(jù)進行分析,挖掘和整理出客戶流失的具體原因,客戶不滿意哪些產(chǎn)品和服務(wù),客戶消費行為的定位等等。通過大數(shù)據(jù)分析可以對不同的客戶提出具有強烈吸引力的個性化營銷方案,進而幫助零售銀行預(yù)防客戶流失進行精準營銷。
第三,產(chǎn)品的分析和管理。零售銀行有眾多的產(chǎn)品,這些產(chǎn)品適合不同的客戶群體,如何對產(chǎn)品進行分析、管理和優(yōu)化也是零售銀行面臨的一個難題。以往的產(chǎn)品分析和管理只是單純的利用統(tǒng)計分析來對產(chǎn)品的當(dāng)前狀態(tài)進行描述,缺少的是深入的挖掘。而在如今的大數(shù)據(jù)時代,通過大數(shù)據(jù)分析不僅可以對產(chǎn)品的覆蓋人群、產(chǎn)品的盈利能力、用戶的反應(yīng)、用戶的留存率、產(chǎn)品的營銷推廣、產(chǎn)品的優(yōu)化升級進行全方位的挖掘,還可以在此基礎(chǔ)上找到新的價值增長點。通過大數(shù)據(jù)分析,零售銀行對產(chǎn)品的把控能力必將得到更大的提高。
第四,風(fēng)險控制和管理。信用卡的使用就是零售銀行面臨的風(fēng)險之一,客戶惡意透支信用卡,逾期不還款這些都是銀行面臨的潛在風(fēng)險。因此,如何提前識別有風(fēng)險的客戶,如何預(yù)防客戶的惡意透支以及如何進行風(fēng)險管控,這些都是零售銀行面臨的難題。在大數(shù)據(jù)分析大規(guī)模應(yīng)用之前,銀行只是簡單的通過用戶的背景資料來進行預(yù)防,這種方法既被動又無效。而如今,在大數(shù)據(jù)的幫助下,銀行可以從客戶的歷史數(shù)據(jù)中分析出客戶的消費行為習(xí)慣,一旦客戶出現(xiàn)非常規(guī)的消費行為,即可認為風(fēng)險指數(shù)超標從而中止交易,進而有效地防止風(fēng)險的出現(xiàn)。
另外,通過大數(shù)據(jù)分析也可對用戶的信用等級進行評估,對信用評估得分低的客戶可以重點進行風(fēng)險管理和控制;對信用評估得分高的客戶可以進一步挖掘出這部分客戶的消費潛力進而提高零售銀行的業(yè)績。
第五,銀行經(jīng)營狀況分析。大數(shù)據(jù)分析不僅可以對零售銀行的客戶進行精準定位、營銷和風(fēng)險管理,也可以對零售銀行的總體經(jīng)營狀況進行深度分析。通過數(shù)據(jù)挖掘及時了解營業(yè)狀況、資金情況、利潤情況等重要信息。同時,還可以結(jié)合歷史同一時間的經(jīng)營狀況數(shù)據(jù),挖掘出現(xiàn)階段經(jīng)營狀況的問題以及改進的策略,進而提出在該條件下最大收益的經(jīng)營方式。
以上五點只是大數(shù)據(jù)分析對零售銀行商業(yè)價值存在的主要方面,也是大數(shù)據(jù)分析對零售銀行影響最大的幾個層面。隨著大數(shù)據(jù)分析在零售銀行業(yè)的應(yīng)用與發(fā)展,大數(shù)據(jù)分析對零售銀行其它業(yè)務(wù)的商業(yè)價值必將得到更大的顯現(xiàn)。
總而言之,大數(shù)據(jù)是創(chuàng)新、競爭和提高生產(chǎn)率的新領(lǐng)域,蘊含著許多市場機會與利潤空間;大數(shù)據(jù)所蘊藏的巨大價值必將引起包括零售銀行在內(nèi)的諸多行業(yè)的經(jīng)營創(chuàng)新和企業(yè)管理的重大變革。今后,大數(shù)據(jù)分析對零售銀行的影響會越來越大,零售銀行業(yè)在大數(shù)據(jù)的推動下必將迎來一個新的增長機遇。
(作者簡介:數(shù)據(jù)分析師,曾參與農(nóng)行、建行、北京銀行等智慧銀行項目)
已收藏!
您可通過新浪首頁(www.sina.com.cn)頂部 “我的收藏”, 查看所有收藏過的文章。
知道了