文/新浪財經意見領袖專欄作家 朱小黃
在數據風起云涌若干年后,在大數據喧囂若干年后,當智能社會的廓影現身于東方晨景時,一切都會回歸常識與基礎邏輯。數據從服務人類管理活動,到干預并損害人類生活狀態,產生了異化。未來只有建立在算法基礎上的數據運用才是可持續的。
1
大數據是數據的外延
現在和未來的唯一樣本是過去。所有的過去都在數據中。
數據與大數據是不同的概念,但卻是同一事物的不同狀態的描述。
數據(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。數據表示的是過去,但數據中包含了大量的信息,通過技術分析,數據所表達的是未來。所以數據是人類生活與社會管理活動中最基本的依據。事實上,數據伴隨了人類文明的全部過程,人們對于數據的知識及實際運用能力也越來越強大,并使人類受益良多。
但是所謂大數據概念的出現使事情變得復雜起來。
大數據(big data)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。通俗地說,也就是同時產生的海量數據在技術促進下得到實時運用,就構成了大數據。
技術進步、尤其是互聯網和各種新的算法模型使得數據獲得了即時采集、即時分析的信息結果。而即時采集的數據不再是人類的工作過程,也包括了人類的生活過程。不僅包括了人類工作的標的,也包括了人類自己,這使得問題復雜起來。但大數據的本質仍然是數據,是新的技術環境下的數據。
2
數據公司商業模式根源
在數據觀念下,我們將以往的數據進行有目的結構化統計,盡量延長數據的長度、寬度,充足性和真實性,通過分析,發現規律,總結邏輯,借用算法,建立模型,弄淸從前,預判未來。正視不確定性現實,解決信息不對稱問題,推動社會發展。需要明確的是,數據的基本屬性是公開、透明、共享,所以數據的商業價值有限,社會價值無限,基于數據的各種算法和邏輯才是數據商業產品的核心競爭力。
大數據觀念下,傳統數據、社交數據、傳感器數據都可以通過互聯網采集到。那么這些碎片化的非結構性數據價值如何挖掘出來呢?
首先,結構化的統計數據不構成大數據特征。而傳感器數據更多地用于特定領域的智能識別系統運用,雖然也是新技術帶來的新數據源,但其商品化運用受到一定限制,而互聯網上獲得的社交和行為數據由于其海量、實時,得到廣泛的應用。當我們談論大數據時,更多意義上是指這類狹義上的社交、行為數據和某些社會服務層面的數據,如醫院的診治、用藥紀錄、銀行的客戶交易紀錄、商場的客戶交易紀錄等等。所謂精準營銷,就是通過搜集某人的相關數據進行個性化商品信息推送、藥物推薦等,也有數據公司提供各種個人的行為數據供金融機構進行風險分析。
大數據運用的收益主要是通過掌握信息的時間差、地區差,利用特定的數據來源形成或制造信息不對稱,占據一定的交易優勢而獲得較高收益。
數據公司通過網絡可以在被采集人不知情的情況下采集到社會成員的身份、身體、特貌、行為、家庭及相關的一切信息,通過算法把相關信息聯接起來,生成針對具體人的營銷、個性化推送、趨勢判斷、資產追蹤等等。對于掌握了某些場景下解決某類問題的算法的數據公司而言,大數據帶來了商機。一方面像頭條新聞的個性推送,雖然包含簡易算法,讓我們覺得服務的而平更貼近每個人;另一方面也因此而毛?悚然,因為這樣的推送實際上已經忽略了我們自己的意愿和權利,肆意地侵蝕到個人隱私權和獨立權益,隨意進入了附屬于個人的生存空間。當你剛訂完機票,就有手機短信推薦接站訂車,這讓你心里惱火。但的確對有需求的客戶來說很是方便,而私人空間則漸被侵入。這種所謂大數據運用的危害性可能會動搖社會基礎秩序。
當前條件下,數據產權制度未形成,個人數據權利更沒有觀念,一些公司把數據洗去個人標識便成為通用數據,每個人一般都不會在海量數據中主張單一的權利。而國家統計部門目前也無力把實時數據納入公共統計范圍,向社會提供數據公共服務,這就形成了一段較長時期的混沌狀態,數據公司通過低成本的數據來源獲得超額收益,得以生存發展。
可見,大數據之所以蓬勃發展,其經濟依據是數據行業的額外收益,這些額外收益主要來自于侵犯社會成員的數據權益,使數據公司通過互聯網低成本獲得這些數據,然后通過技術和算法優勢形成數據服務產品,獲得不錯的盈利。可以說,數據公司幾乎無償地獲得了數據資源,并把它們轉化成商品。但算法卻是需要真正資本投入才能獲得的產品。所以隨著數據的大量公共分享,將失去其資源價值,只有那些投入設備和智力掌握了大量社會生活情景下解決問題的邏輯和算法的數據公司才真正具有競爭力。那些僅僅靠查詢和數據供應?生存的公司是無法持續的。
傳感器數據也存在同樣的問題。傳感器的設置和廣泛分布以及分辨技術雖然需要?量的投資,但是?前一些影像數據分析公司和智能公司的數據來源?都從公共傳感網絡或者企業的傳感系統所收集,客觀上占用了公共資源。而這些影像資料的使用則更容易直接侵害別個人穩私領域。比較典型的是私自通過酒店或公寓的視頻紀錄探查個人行蹤或進行所謂市場分析。
3
大數據異化
就像工業革命造成的異化一樣,大數據也造成了數據的異化。
數據從服務人類管理活動,到干預并損害人類生活狀態,產生了異化。
那么這一切是怎么發生的呢?
大數據的實時性制造了市場先機,銷售業一哄而上,因為有利可圖,傳統的規則被悄然融化,但新的規則有待時日。
互聯網提供了數據的多樣性,對客戶的個性化需求定位帶來了可能,而這正是傳統銷售業的短板。但新的以大數據為基礎的營銷越來越干擾到人們的正常生活方式。
傳統數據分析運用需要專業背景,很難廣泛推廣,而所謂大數據只是數據的低端運用,門檻低,成本低。大數據簡單運用社交行為數據由于缺乏邏輯背景,常常并不準確。例如收集小企業或個人支付能力的數據用于風險評估,而許多情況下暫時性的周期性的季節性的現金流萎縮都是企業經營和個人生活中的正常現象,依此評估風險是不準確的。
法律約束不明朗造成濫用。立法與司法制度的完善需要個人信息收集、反饋、設計、測試、廣泛應用的時間周期,這個周期成為數據濫用牟取暴利的窗口期。一旦國內采用了類似歐盟《通用數據保護條例》(GDPR,2016年4月通過法案,2018年5月25日正式生效)這樣的數據保護,大數據的無序狀態將會結束,今后幾年內,依靠濫用數據獲利的公司無疑會被淘汰。
當數據的運用能帶來超額收益時,必然導致濫用,從而導致數據運用所提供的信息服務產生的收益歸于一部分人,而大多數人因此而受損。本來服務于人類的數據開啟了干擾人類生活秩序的模式,大數據進入數據文明的負面清單。
至此大數據終于走到了數據的反面,成為數據的異化現象。工業革命異化對工人造成的流水線壓力隨著技術的升級和自動化以及人文環境的改善而逐漸緩和。但大數據時代對人居環境和心理以及權益的威脅更甚于工業革命異化。面對這把粗糙的大鎖,理性和規則的復興才是唯一的鑰匙。
4
數據為王到算法為王
可以預見,當數據的公共資源性質逐漸形成,某些數據的稀有性減退,其價值也會遞減。
廉價的公共化數據,使得數據稀有性稀釋,價值逐漸式微,而作為實現數據價值橋梁的算法卻逐漸進化升級,智力投入越大,準入門檻越高,價值凝聚越多。所以算法的市場價值會逐步提升。
算法即邏輯。一套算法是理論歸納與實務判斷和智能操作技術的綜合產物。一類事物,最優算法理論上是唯一的,所以算法可以說是有限資源。算法是指解題方案的準確而完整的邏輯與技術描述,算法代表著用系統的方法描述解決問題的策略機制和數學模型。也就是說,如果一個算法有缺陷,或不適合于某個問題,執行這個算法將無法解決這個問題。不同的算法可能用不同的時間、空間或效率來完成同樣的任務。一個算法的優劣可以用空間復雜度與時間復雜度來衡量。在數學模型上表現為多種變量之間復雜邏輯關系的處理。
由于我們生活在有限的時間和空間里,因此所有人都會面臨一系列需要選擇的特定問題,諸如幾年內哪些事必須做、哪些事可以放棄。人們為了買房,到處去看房,盡管你事先制定了標準,但還是要跑很多樓盤,什么時候可以下手或者繼續選擇?
事實上平衡觀念是解決問題的關鍵,那么這個平衡點在哪里?專家計算的結果是37%。看完這個比例的房子以后就可以下手了,再多看意義不大。這個37%就是某種算法的產物。
算法基于專業邏輯和數學模型。未來只有建立在算法基礎上的數據運用才是可持續的。而算法是所有工業智能化的技術與邏輯基礎。算法不是源于數據,而是源于數學,源于基礎教育,源于專業訓練,源于長期積累。相信浮躁的大數據行業自身很難具有這樣的原創能力。智能化需要數學家。可以預見,大數據的煙花將隨風飄散,算法為王的時代即將來臨。
(本文作者介紹:原中信銀行行長)
責任編輯:趙子牛
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。