圖計算如何成為下一代數(shù)據(jù)底座?

圖計算如何成為下一代數(shù)據(jù)底座?
2022年09月02日 00:08 21世紀(jì)經(jīng)濟報道

  導(dǎo)讀:在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。

  圖是事物及其關(guān)系的抽象表達。在以圖數(shù)據(jù)成為生產(chǎn)要素的數(shù)字經(jīng)濟時代,圖智能在工業(yè)、教育、醫(yī)療、金融等領(lǐng)域展現(xiàn)出了強大的成長潛力。

  圖計算成為數(shù)據(jù)的底座。9月1日,在2022世界人工智能大會上,“新一代圖智能技術(shù)發(fā)展與實踐論壇”如期舉行,從產(chǎn)學(xué)研不同視角對圖技術(shù)進行討論。

  在論壇上,螞蟻集團圖計算負責(zé)人陳文光宣布開源螞蟻集團高性能圖數(shù)據(jù)庫TuGraph單機版,并成立圖計算開源技術(shù)委員會,中國工程院院士鄭緯民、陳純分別擔(dān)任主席、副主席,5位業(yè)界知名專家擔(dān)任委員。隨著TuGraph的開源,圖數(shù)據(jù)領(lǐng)域?qū)⒂瓉硪豢钚阅茏吭健⒐δ茇S富、生態(tài)完備的開源產(chǎn)品。開發(fā)者可以聚焦應(yīng)用層,輕松打造屬于自己的圖數(shù)據(jù),從而提升行業(yè)整體技術(shù)應(yīng)用水位。

  中國工程院院士、清華大學(xué)教授鄭緯民認為,當(dāng)前圖數(shù)據(jù)庫正在成為發(fā)達國家科技企業(yè)競相布局的新興熱門領(lǐng)域。在圖數(shù)據(jù)庫時代,我們有機會與國外企業(yè)同期起步,現(xiàn)在布局正當(dāng)其時。

  關(guān)系是最高價值特征

  據(jù)了解,今年是世界人工智能大會舉辦的第五年,“科技風(fēng)向標(biāo)、產(chǎn)業(yè)加速器”是這場全球AI領(lǐng)域的行業(yè)盛會對參展技術(shù)與產(chǎn)品的期許。

  圖計算里的圖(Graph)并非圖片,而是來源于圖論,是用于表達對象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),核心要素是點和邊,分別代表對象和對象之間的關(guān)系。“傳統(tǒng)的關(guān)系數(shù)據(jù)它其實是一個表的模型,不是一個很直接的方式,也非常不靈活。”螞蟻技術(shù)研究院院長、螞蟻集團圖計算負責(zé)人陳文光表示,“圖數(shù)據(jù)沒有強行把一個原生的關(guān)系變成一個表,再用表來表示這個關(guān)系,而是直接把這個關(guān)系表達出來,所以它是一個最靈活的數(shù)據(jù)模型。”

  因此,圖計算在處理大規(guī)模復(fù)雜關(guān)聯(lián)關(guān)系時非常有效,它是對復(fù)雜關(guān)系的一種新的建模方式,為更深刻地理解這個世界提供了一種有效的工具。在實際運用中,圖可以將各類數(shù)據(jù)聯(lián)系起來,將不同來源、不同類型的數(shù)據(jù)融合到一個圖里進行分析,可以得到獨立分析難以發(fā)現(xiàn)的結(jié)果。

  那么會有怎樣的增量信息被圖計算挖掘呢?

  陳文光舉例稱,當(dāng)一個人的屬性你知道的非常少的時候,判斷他是好人還是壞人很有難度,但將“關(guān)系”考慮其中,結(jié)合“與他相關(guān)”的整體來看,一切則變得有跡可循,也就更容易做出判斷。“在圖上有很多的方法,其實都幫我們給出一定的可解釋性。”

  以搜索引擎Google為例,如何判斷哪些網(wǎng)頁的重要程度高于其他網(wǎng)頁?Google做的就是網(wǎng)頁排序,兩位創(chuàng)始人提出了一個叫做PageRank的算法,這個算法的核心就是把互聯(lián)網(wǎng)上每一個網(wǎng)頁抽象成一個點,網(wǎng)頁上的超鏈接又鏈接到其他的網(wǎng)頁,就構(gòu)成了這個點上的邊,由此將一個網(wǎng)頁與其他網(wǎng)頁相關(guān)聯(lián),通過網(wǎng)站外部鏈接的數(shù)量和質(zhì)量來判斷其重要性。

  PageRank是圖計算中經(jīng)典的算法,也是Google瀏覽器脫穎而出的因素之一,“關(guān)系”的價值在這個實例中得到充分展現(xiàn)。

  Gartner 在《2021 年十大數(shù)據(jù)和分析技術(shù)趨勢》報告中預(yù)測,到2025年,圖技術(shù)將應(yīng)用于80%的數(shù)據(jù)和分析創(chuàng)新。目前,在金融、互聯(lián)網(wǎng)、工業(yè)、醫(yī)藥、公共衛(wèi)生、公共安全等領(lǐng)域都有很多的應(yīng)用。

  未來應(yīng)用可能性

  去年4月12日,人民日報刊發(fā)的文章《高性能圖計算:尖端科技下一個前沿》稱:在我國發(fā)展高性能圖計算,具備良好的技術(shù)基礎(chǔ)和現(xiàn)實條件。一方面,人們?nèi)缃竦娜粘I铍x不開高性能計算。天氣預(yù)報、新藥研發(fā)、新型材料、安全系數(shù)更高的汽車、高鐵和飛機等都需要高性能計算作支撐。另一方面,由于圖的優(yōu)秀表達能力、可視化效果和堅實的數(shù)學(xué)基礎(chǔ),圖計算也已在國家安全、金融安全等方面有很高的價值。

  螞蟻集團圖數(shù)據(jù)庫負責(zé)人洪春濤表示,圖技術(shù)是未來大數(shù)據(jù)、人工智能和高性能計算產(chǎn)業(yè)發(fā)展的關(guān)鍵所在,它很有可能會成為下一代的數(shù)據(jù)底座。

  以螞蟻集團為例,圖智能已經(jīng)成為螞蟻科技底座之一,被成熟應(yīng)用于螞蟻集團的支付和數(shù)字金融場景,包括全圖風(fēng)控、反洗錢、反欺詐、保險知識圖譜、花唄圖譜等。據(jù)了解,至今TuGraph已應(yīng)用于螞蟻內(nèi)部150多個場景,包括在線支付的實時鏈路,以支付寶風(fēng)險識別能力提升近10倍、風(fēng)險審理分析效率提升90%的成績,驗證了其高可靠性。

  上月,LDBC(關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會)發(fā)布最新圖數(shù)據(jù)庫SNB測試結(jié)果,TuGraph在功能完整性、吞吐率、響應(yīng)速度等層面全球領(lǐng)先。

  華中科技大學(xué)教授金海認為,圖是未來人工智能大數(shù)據(jù)分析的核心,而目前來看,這個方向的應(yīng)用還比較有限。

  杭州悅數(shù)科技首席執(zhí)行官葉小萌在接受21世紀(jì)經(jīng)濟報道記者采訪時表示,圖計算在學(xué)界發(fā)展多年,但業(yè)界是在近兩三年才逐步發(fā)展起來的,還處于初期,目前仍面臨如何尋找用戶痛點的問題,“怎樣用圖的技術(shù)去解決用戶的問題是商業(yè)上的挑戰(zhàn)。”

  而用戶方面,對于圖技術(shù)能帶來什么價值,大多數(shù)用戶也并不足夠了解。“從我們的角度來說,我們要去理解用戶的場景,幫用戶找到圖技術(shù)的應(yīng)用。”葉小萌表示。

  此次開源也意味著,螞蟻集團愿意通過開源持續(xù)輸出核心技術(shù)優(yōu)勢,推動圖數(shù)據(jù)庫更廣泛的應(yīng)用生態(tài)。

  陳文光認為,開源可以幫助企業(yè)得到更多的外界輸入,看到業(yè)界更多的需求的時候可以避免走彎路。亞馬遜上海人工智能研究院資深應(yīng)用科學(xué)家王敏捷有類似的感受,他認為開源有助于快速的反饋迭代,但在面臨多樣客戶時,對團隊的管理也有很大挑戰(zhàn)。

  在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。

  (作者:董靜怡 編輯:張偉賢)

螞蟻集團圖計算
新浪科技公眾號
新浪科技公眾號

“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)

創(chuàng)事記

科學(xué)探索

科學(xué)大家

蘋果匯

眾測

專題

官方微博

新浪科技 新浪數(shù)碼 新浪手機 科學(xué)探索 蘋果匯 新浪眾測

公眾號

新浪科技

新浪科技為你帶來最新鮮的科技資訊

蘋果匯

蘋果匯為你帶來最新鮮的蘋果產(chǎn)品新聞

新浪眾測

新酷產(chǎn)品第一時間免費試玩

新浪探索

提供最新的科學(xué)家新聞,精彩的震撼圖片