意見領袖丨范文仲(北京金融控股集團董事長)
第二章?新技術
二、區塊鏈與隱私計算
(二)隱私計算
伴隨著云計算、大數據、人工智能等新一代信息技術的快速發展,數據作為戰略性和基礎性資源,不但是連接虛擬空間和實體空間的紐帶,也是數字經濟體系中技術創新、需求挖掘、效率提升的重要動能。但大數據在互聯網時代蓬勃發展的同時,也面臨著安全問題的挑戰,既有公民個人信息和隱私安全的隱患,也有行業和企業數據安全的隱患。加密技術使參與主體在無法對原始數據進行瀏覽、復制、修改的前提下,完成對數據的計算,得出有價值的計算結果,從而避免人為因素對數據流動和使用的介入,逐漸成為一種被廣泛認可的解決方案。這種技術被稱作隱私計算技術,又被形象地稱為可用不可見技術。
1. 隱私計算技術三大流派
(1)附帶隱私保護的明文算法流派
明文算法增強流派主要包括聯邦學習、差分隱私、數據脫敏等技術路線。主要特點是,通過改變數據的使用方式,或在一定程度上降低數據的精確性,換取數據安全性和隱私性的提升。
聯邦學習(FederatedLearning)。聯邦學習是一種分布式機器學習技術和系統,包括兩個或多個參與方,這些參與方通過安全的算法協議進行聯合機器學習, 可以在各方數據不出本地的情況下聯合多方數據源建模和提供模型推理與預測服務。在聯邦學習框架下,各參與方只交換密文形式的中間計算結果或轉化結果,不交換數據,保證各方數據不泄露。聯邦學習可以通過同態加密、差分隱私、秘密分享等提高數據協作過程中的安全性。根據聯邦學習各參與方擁有的數據的情況,可以將聯邦學習分為兩類,即橫向聯邦學習和縱向聯邦學習(見圖2-1)。
在橫向聯邦學習中,參與方在各方數據的“數量”這個維度上進行合作,解決單個參與方的訓練數據不足的問題。在縱向聯邦學習中,參與方在數據的“特征”和“標簽”這兩個維度上進行合作,解決單個參與方的數據特征過少或者沒有標簽的問題。縱向聯邦學習需要計算參與方共同擁有的樣本ID,可以通過安全多方計算中的隱私集合求交技術實現。
差分隱私(DifferentialPrivacy)。差分隱私原理是基于統計學,在數據中加入足夠的噪聲,使數據與其擁有者無法完全關聯,從而確保隱私性。因此,差分隱私并非通過將數據隔離在安全的地方確保隱秘, 而是將其淹沒在噪聲的海洋中,通過統計學的方式保障安全。從本質上講,差分隱私是通過一定程度地降低數據的精確性,換取了數據安全性和隱私性的提升。加入的噪聲方差越大,隱私保護程度越高,計算的精確性也越低。使用差分隱私,需要在使用數據的準確性和隱私安全性之間尋求平衡。
數據遮掩(DataMasking)。數據遮掩就是按照一定的脫敏規則對敏感數據進行變形,實現對數據的保護。常見的技術手段有遮蓋、泛化、替換、亂序、加擾等。同時,隨著脫敏后數據信息完整性的喪失,數據的分析價值將隨之降低。數據脫敏從技術上可以分為靜態數據脫敏和動態數據脫敏兩種。靜態數據脫敏一般應用于數據外發場景,例如需要將生產數據導出發送給開發人員、測試人員、分析人員等;動態脫敏一般應用于直接連接生產數據的場景,例如運維人員在運維的工作中直接連接生產數據庫進行運維,客服人員通過應用直接調取生產中的個人信息等。
(2)密碼學流派
密碼學流派主要基于數學與密碼學原理,數據可在加密狀況下進行計算,且將得到與明文計算相同結果。通過對數據和算法進行加密,使數據始終在密文狀態下運算。主要技術路線是安全多方計算及相關支撐性技術。
安全多方計算(SecureMuti-partyComputation)。安全多方計算是一種在參與方不共享各自數據且沒有可信第三方的情況下安全地計算約定函數的技術和系統。通過安全的算法和協議,參與方將明文形式的數據加密后或轉化后再提供給其他方,任一參與方都無法接觸到其他方的明文形式的數據,從而保證各方數據的安全。安全多方計算技術并不是一個單一的技術,它是由一系列技術組成的協議棧。
安全多方計算與其他隱私計算技術融合應用成為主流趨勢。由于安全多方計算需要消耗大量的計算和通信資源,目前應用更加適用于小規模數據量,并且應用主要是聚焦相對簡單的統計、查詢等類型的計算,而基于安全多方計算的聯合建模框架只能支持相對簡單的機器學習模型,如邏輯回歸模型等。其主流的應用主要以安全技術的形式融合在其他隱私計算解決方案中,例如與聯邦學習的結合,在樣本對齊階段通過隱私集合求交來實現參與方公共樣本ID的發現;在聯邦模型訓練階段,可以通過同態加密、秘密分享等技術來實現對中間技術結果或轉化結果的保護。
安全多方計算需要用到相對復雜的密碼學運算,其計算和通信開銷會超過實際應用能承受的范圍,導致無法實現在大規模數據上的應用。提升其計算和通信效率是當下技術演進的主流方向,主要呈現兩大技術路徑。一是聚焦減少算法的計算量和安全協議的消息交互量,通過壓縮算法、采樣、抽樣等方式減少計算和通信開銷,從而實現計算和通信效率的提升。二是通過新的密碼學技術和設計新的算法協議,結合硬件加速技術(如GPU、FPGA、ASIC加速)和專有算法實現加速計算量較大的環節和步驟,進一步提升計算效率。
(3)可信執行環境流派
可信執行環境(TrustedExecutionEnvironment),是由全球平臺組織(GlobalPlatform)提出的概念標準,主要基于硬件實現數據安全與隱私保護。
可信計算指借助硬件CPU芯片實現可信執行環境(TEE),從而構建一個受保護的“飛地”(Enclave),對于應用程序來說,它的Enclave是一個安全的內容容器,用于存放應用程序的敏感數據與代碼,并保證它們的機密性與完整性。以IntelSGX為例,Enclave的內存區域是由CPU默認加密的,且只能被同一個Enclave中的代碼所訪問,即便是外部高權限實體(VMM、BIOS、SMM)也無法訪問。
2. 隱私計算技術與區塊鏈①
隨著技術的不斷發展,區塊鏈從一種防篡改、可追溯、共享的分布式賬本管理技術,轉變為分布式的網絡數據管理技術,利用密碼學技術和分布式共識協議保證網絡傳輸與訪問安全,實現數據多方維護、交叉驗證、全網一致、不易篡改。
隱私計算雖然實現了在多方協作計算過程中對于輸入數據的隱私保護,但是原始數據、計算過程和結果均面臨著可驗證性問題。而區塊鏈因其共享賬本、智能合約、共識機制等技術特性,可以實現原始數據的鏈上存證核驗、計算過程關鍵數據和環節的上鏈存證回溯,確保計算過程的可驗證性。因此,將區塊鏈技術對計算的可信證明應用到隱私計算中,可以在保護數據隱私的同時增強隱私計算過程的可驗證性。
區塊鏈將成為隱私計算產品中必不可少的選項,在保證數據可信的基礎上,實現數據安全、合規、合理的有效使用。主要體現在以下三個方面。
區塊鏈可以保障隱私計算任務數據端到端的隱私性。通過區塊鏈加密算法技術,用戶無法獲取網絡中的交易信息,驗證節點只能驗證交易的有效性而無法獲取具體的交易信息,從而保證交易數據隱私,并且可按用戶、業務、交易對象等不同層次實現數據和賬戶的隱私保護設置,最大限度地保護數據的隱私性。
區塊鏈可以保障隱私計算中數據全生命周期的安全性。區塊鏈技術采用分布式數據存儲方式,所有區塊鏈上的節點都存儲著一份完整的數據,任何單個節點想修改這些數據,其他節點都可以用自己保存的備份來證偽,從而保證數據不被隨便地篡改或者被刪除。此外,區塊鏈中所使用的非對稱加密、哈希加密技術能夠有效保障數據安全,防止泄露。
區塊鏈可以保障隱私計算過程的可追溯性。數據申請、授權、計算結果全過程鏈上進行記錄與存儲,鏈上記錄的信息可通過其他參與方對數據進行簽名確認的方式,進一步提高數據可信度,同時可通過對哈希值的驗證匹配,實現信息篡改的快速識別。基于鏈上數據的記錄與認證,可通過智能合約,實現按照唯一標識對鏈上相關數據進行關聯,構建數據的可追溯性。
區塊鏈與隱私計算結合,使原始數據在無須公開與共享的情況下,可實現多節點間的協同計算。同時,能夠解決大數據模式下存在的數據過度采集、數據隱私保護,以及數據儲存單點泄露等問題。區塊鏈確保計算過程和數據可信,隱私計算實現數據可用而不可見,兩者相互結合,相輔相成,將會深刻影響數據交易的未來。
①根據《騰訊隱私計算白皮書2021》相關內容整理。
(本文作者介紹:北京金融控股集團董事長)
責任編輯:張文
新浪財經意見領袖專欄文章均為作者個人觀點,不代表新浪財經的立場和觀點。
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。