股市瞬息萬變,投資難以決策?來#A股參謀部#超話聊一聊,[點擊進入]
2023中國國際服務貿易交易會-2023中國金融科技論壇于9月2日在北京舉行。神州信息上地大數據研究院數據科學家卜仁海出席并演講。
卜仁海表示,大約20多年前,信息化程度較高的行業的頭部企業,開始建設數據倉庫。當時的數據主要是企業內部系統的結構化數據,數據應用主要是BI分析及報表。隨著業務需求及數據形態的變化,開始建設數據湖。原因是參與分析的非結構化數據逐漸增多,數據應用也有了新的擴展,實時計算、人工智能、機器學習等場景逐漸增多。
而最近幾年,開始流行起了湖倉一體的數據平臺概念。“當我們說數據倉庫、數據湖的時候,其實有兩種說法,一種說法是指硬件平臺,一種說法是指數據的組織結構。這張圖里說的是硬件平臺,指的是用一個硬件平臺來實現湖和倉的建設。國內在規劃建設湖倉一體的時候,在方式上會相對靈活些”,他說。
卜仁海介紹了國內建設湖倉一體的幾種方式。一種是是采用融合的方式,數倉平臺和數據湖平臺間存在實際上的數據復制,如果數據的管理、調度等自動化程度較低,流程不完善,則不僅僅是數據冗余的問題,還涉及到應用效率等方面的問題。
第二種是采用編織的方式,數倉平臺和數據湖平臺間可以不用數據復制,業務人員的訪問接口是Fabric組件,由此組件解析優化訪問語句,計算處可以是倉、湖以及Fabric組件,具體要看Fabric組件的優化策略和能力。需要說明的是,Fabric的訪問語句通常不會完全覆蓋倉、湖數據庫的所有語句。
第三種是真正物理平臺上的一體,或者說其上的各個數據庫可以直接訪問彼此的文件系統和存儲結構,這也是最理想的情況。
為什么說湖倉一體大概率是數據平臺的趨勢呢,它有什么好處呢?
卜仁海解釋說,首先,它可以容納多模態的數據,比如音頻、視頻、圖片、文檔等。其次,豐富的計算引擎,簡單的說,就是無論什么樣的數據,都可以相對容易的找到其對應的計算引擎并部署。并且是存算分離的,也就是說,存儲部件和計算部件是分離的,可以各自彈性擴展。流批計算一體。支持人工智能、機器學習。數據平臺經歷了分的過程,目的是為了滿足不同數據的不同計算需求,現如今正逐漸走向合的階段,目的是為了易管易用、簡單高效。技術總是在不斷進步的,湖倉一體尚在逐步發展階段。
卜仁海稱,湖倉一體因其支持多模態數據、存算分離、統一資源配置調度、統一元數據管理、統一訪問語句、流批一體等優勢特性,便于運維管理、降本增效,提供實時、敏捷、智能等數據應用場景,可為企業提供一個更簡化的數據處理環境,實現數據業務效率的提升,從而成為眾多企業數據平臺的新寵。
同時,卜仁海表示,企業也需要明確的認識到,湖倉一體解決方案的成熟度仍在發展中,同時很多企業對于復雜數據架構的設計、部署和維護能力也不成熟。數據運營對很多企業而言,仍然是當前最大挑戰,這不是一個數據平臺所能解決的問題,或者說不是一個純粹的技術問題。
另外,湖倉一體的很多配套能力還有待優化提升,包括數據質量管理、安全性、數據治理和性能等方面。
新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閱,新浪網登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。
責任編輯:梁斌 SF055
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)