新浪財經訊 “2015中國高新技術論壇”于11月16-18日在深圳會展中心舉行。臺灣財團法人資訊工業促進會大數據所技術總監徐允平出席并演講。
徐允平表示,大數據對我而言是發現未知未來,對于這一些資料有了掌握,你就可以準備好你去應付未來、應付將來的競爭,這個在好多個領域都可以用到,醫療照顧、零售、制造甚至政府單位,個人都可以用得到。
以下為演講實錄:
徐允平:大家好!我是來自臺灣的資訊工業促進會,剛才主持軟他也來自臺灣,他還了解我們一點,我稍微介紹一下臺灣的資訊工業促進會,它主要的經費來自臺灣政府。做的是科技方面特別是IT工業的研究,主要目的是為了促進資訊工業研究,我們做的主要是技術方面的研發,但是跟工業界特別就是IT工業界走的比較近。
所以我今天的題目是與大數據比較直接相關,因為我是來自資訊工業會的大數據所。我覺得相信與在在座的諸位來賓都差不多,我認為我們都是一個非常幸運,當然我們也是會有一些差距。但是像我個人經歷過的這些電腦工業,我覺得是還蠻完整的,從我大學時代所使用的電腦大概很多人沒有經驗過,到我出國念書那時候大家最流行的帶一臺PC,那個時候PC已經很流行,而且對電腦、工程方面已經是非常重要的一個工具。
當然后來更重要的就是互聯網,到現在的大數據,這一波接著一波來勢洶洶,對于我們的生活的改變也是越來越大,我想用這個來做一個起頭。
大數據風暴的形成,就是這幾個因素,這是我個人的看法。它好像一個很完整的perfect storm,它來自于數據的爆發,它來自機器學習,技術的一種利用,這些技術早已研究多年,再來商品化的運行,也就是說(英文)軟體開源,還有一個橫向拓展的技術,我后面再做一些詳細的介紹,我覺得這些因素造成了大數據風暴的形成。
我們先從data開始說,這張圖叫Data Never Sleeps,它從收集到的資料從2011到2013到到2015,這上面幾個特別驚人的數字我特別講出來,一個是U to(音),在中國也有類似的優酷,Ato上傳的影片和上傳的照片,Facebook分享或者點贊的活動,在這幾年來是呈幾何程度的成長,這非常的驚人,Uto以每分鐘上傳了多少小時的硬盤,2011年是48小時,2013年是72小時,2015是三百小時,這個成長非常驚人,大家會注意到這邊所收集到的資料,它當然是internet所產生的資料,因為這幾個特別具成長都是相關的,這也是一個趨勢。
近年來數據暴增這個圖片有點舊,但是那個時候在2012年左右,2011年與2012這兩年所產生的data是歷史以來的90%,我相信在后面幾年仍然有很大的成長,會有90%。但是還是非常的驚人。也就是說在近年來由于這個數據互聯網、計算機的這方面的盛行造成了數據量的暴增。
這張圖也告訴我們,cloud確實帶來了更多的資料,你看一下曲線是在Inter cloud data,這一方面所造成的資料,產生的暴增,令資料量的總數呈了幾何性的增長。
Big data有三個V或者是四個D或者是五個V,最重要的三個V,volume資料量的大,大數據,velocity資料產生的速度,以及variety資料的種類,資料來源的格式有非常多的種類。因此在做大數據的處理就必須要面對這幾個挑戰,不只是資料量的大,同時也要能夠迅速的處理,并且要能夠對于各種不同格式的資料處理。
我們常常用冰山來描述它,也就是說在冰山上面的一個角落是我們所看到的資料,在隱藏在冰山下面還有巨量的資料、海量的資料,那我們要如何征服它?它對我們來講意義又在哪里呢?
這個是美國的國防部長在大概2000年左右,當時的記者在問他你為什么去打伊拉克?他說我們要去找(英文),后來也沒有找到,所以人家來問他,他就說,說了一個很好笑的,但是他說:“There are knownknowns,The are known unknowns,There are also unknownunknowns。”當時的記者也被他搞的搞笑了,我到現在認為在今天這倒是有一個很好的啟發。
也就是利用大數據你可以去尋找你不知道的答案,這算是已知的未知,利用大數據以及機器學習的一些方法你可以找出你未知的未知,你并不清楚某些資料或者是屬性他們有一些相關的條件和關系,比如說很有名的哪一個他就找到這個尿布和啤酒常常是一起被買的,這也是一個很有趣的未知。你會針對這些制造更多的商機,這些資料子所帶來的知識對你來講有多重要呢?我相信在未來,大概所有的企業其實不管是大的、小的都會需要利用大數據來增加它對它的領域的一些新的認知,其實這不只是是商業,剛才前面也有提到例如說健康都有在運用大數據的技術來改善我們的生活、照顧我們的病人、尋找新的醫療方法。這個圖隨著時間的轉移你所發現的這些事情它會從上往下漸漸的,從事件的發生到資料的收集到你發現他中間的洞察,也就是你找到你未知的未知它的關聯性,到你應用這些洞察而做出的一個決定,為了這個決定而付出行動,你如果要做一個贏者,你做的一個洞察和這一段時間之內要采取行動,否則的話會錯失良機。
剛才也提到了電腦技術或者IT技術的一波一波的開發,這個是IBM[微博]的CEO他前一陣子提到了第三波的技術。他說第一波那時候的電腦是拿來算一些東西,算一些賬,做一些基本的商業用途。在第二波的時候我們已經改善了我們如何利用電腦,我們發明了程式語言,越來越高的程式語言,我們可以控制電腦我們希望他做的新的想法、新的事情,這就是第二可以編程。
在第三個階段,這個計算機要開始能夠自己去學習了,他認為這個時間就是現在,現在就是這一波的開始,也有人說會不會有人工智慧?會不會電腦有它各自的思想,會不會去想?這倒是一個在計算機里面討論很久的事情我覺得他講的還是比較保守的還是比較現實的,電腦確實是可以自我學習,當然也靠程序,當然要靠它去想,這一個步驟現在還在研究中。
大數據對我而言發現未知準備未來,你對于這一些資料有了掌握,你就可以準備好你去應付未來、應付將來的競爭,這個在好多個領域都可以用到,醫療照顧、零售、制造甚至政府單位,個人都可以用得到。
再來我們講一下軟件和硬件,對于這些大數據的沖擊的影響,剛才有一位中芯徐總提到的,moore氏定律大家非常熟悉了,這個是硬件的沖擊,Gdrdon E.Moore預測:circuit doubles approximatelyevery two years這個多年來還是蠻真實的。硬件之外軟件的沖擊那就是開源軟體Open Source Software,因為在這個之前許多的軟體大家還要花費蠻高的代價才能獲得,但開源軟件的沖擊非常之大,今天開放互聯網的Software都是Open SourceSoftware。
這邊稍微做一點廣告,我們做了一個大數據的平臺叫Bistno,在這中間用到的開源軟體非常之多。事實上大數據的技術在今天大部分還是靠著開源軟體所提供的基礎建設做出來的,這是一個非常新的一個觀念。因為以往的技術往往在很多是比較領先的,大數據在新的技術上面開源反而領先。
有了這個硬體、有了這個軟體,再下來我們就要結合起來,Scale-Up vs. Scale-Out這個技術非常重要,我怎么利用這些梨園軟體讓我處理更多、更大量的資料、更快速的去獨立它,這就靠一個scale-up的技術,因為要scale-up非常大的電腦,但是用Scale-Out的方式可以用商品化的來處理很大量的數據,這是就是Scale-Out的好處,也是今天大數據處理的一個重要元素。因此大數據的發展就是洞察發現、決策優化的大量、快速的做出的優化決策的一個效果。
它的領域包含了硬體,我歸為電機領域、軟體、咨詢領域、計算機、分析、處理以及決策,它本身是需要靠這些領域的人來做一些分工的。這邊有三個圈圈,就代表了三個最重要的三個角色,這三個角色一個就是資料科學家,資料科學家必須會做,對資料做模型和分析,以及資料工程家是做的事情就是把資料拿來做管理與處理。還有一個很重要的就是領域專家,因為大數據是用來解決各個領域所遇到的問題。本社領域專家必須要對他的領域以及這個領域上所能收集到的資料有一個很好的了解。
資料科學家特別定義是在好幾個領域中間的,它的重點把這個資料中間的知識能夠提取出來,他所利用的就是統計學、積極的學習新的技術。
Data engineering也不容忽視,因為它實際上在資料科學的處理中間,有50%到80%的時間是花在資料的處理,因為我剛才提到這些資料不僅是大量、不僅是快速而且有很多的形態,就是第三個V,因為Data的處理工程也是非常重要的。
再有就是領域專家,必須要了解他領域的問題以及他的資料在哪里?他如何利用資料幫助資料夾來做整合來解決他的問題。
我們舉幾個大數據的應用,我選的這些例子是比較廣泛,第一個選舉,這個在奧巴馬在做競選的時候,他蠻善加利用大數據的分析,這幫助他做什么事?第一個他去了解他的選民,他了解他選民在想什么?他了解他的選民在哪里?在哪里?支持他的選民在哪里?有了這個好的了解之后,其實對于他的選舉之后的效益會增加很多,這也是一個很有趣的一個部分。
實際上我們市場上面的一個了解輿情也就是商情對市場不管是什么樣的產品的有很大的助益,我們也曾經講過,今天還有去做一些客戶的處理,事實上在將來或者是現在其實已經到了這個地步,你真的要了解你的客戶對你產品的感想事實上要去尋找。
還有工業上的使用,制造工業4.0也是非常依賴大數據的技術。比如說在做一種化合物的時候沒有辦法去測量所有的流程,但是你可以依據你在用料以及機器方面的各種參數,以及最后的試驗結果、最后的良策結果來做統計,使得在制造的過程中間,你也可以有虛擬的,它可以告訴你你今天做出來的東西是好與不好。
在健康照顧方面這是一個蠻古典的一個例子也就是谷歌[微博],他利用了他們的數據來做流感的預測,后來也停止了,它直接把資料提供。谷歌做到這一點就是靠他們很大的數據量。它也利用到了它很強大的運算能力,在他利用這個分析流傳傳播的過程中處理了四億五千萬不同的模型,他善用了處理能力和統計專業。
領域在教育方面輟學的風險提早發現來主動的輔導青年,讓他們的學習能夠繼續。有一些人很討厭財稅這方面,很討厭政府來收他的稅,但事實上政府能夠有效率的收到稅的話幫助你少交一點稅。
在結尾我就再呼應一次就是大數據的魅力,它幫助我們發現發現未知、準備未來,在各個領域都有它應用的機會,我的演講到這里,謝謝!
黃家瑞:非常謝謝徐總,下面我們很榮幸請到了三星[微博]SDS智慧城市事業部總監劉占釗先生,有請!
新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閱,新浪網登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。
《財經會議》報道你看不見的會場實況,傳播會議精華內容,會議直播提前預告,不定期送出免費超值會議門票。官方微博:財經會議,微信號:caijinghy。掃碼更方便。