本文來源:數智化轉型俱樂部 作者: 資深資料人原攀峰
繼上期介紹了新監管形勢下的隱私技術及資料共享合規設計的思考,本期將接著為大家講解,國內唯一一個獲得工信部三項隱私計算測評的產品DataTrust,在隱私計算領域從產品需求到工程架構的實踐之路。

隨著資料作為第五大生產要素被提出,“資料流通”的社會價值已形成廣泛共識,由於行業背景、資料現狀、研發能力等方面的差異性,不同行業企業對於“資料流通”的場景和訴求也不盡相同:

  • 資料安全要求不同:有些企業相信中立的第三方,能接受資料安全上傳至受信的第三方平臺的方案;有些企業對資料保護較敏感,希望原始資料不流出自有網路和自有機器。
  • 資料融合計算模式不同:有些場景需要統計分析的隱私計算能力,如雙方資料求交後做SUM/COUNT等計算,或者雙方聯合SQL計算,最終得到統計分析結果;有些場景需要機器學習的隱私計算能力,如雙方聯合完成模型訓練、模型預測,最終得到演算法知識結果。
  • 資料的雲化程度不同:一些企業大部分業務系統已經上雲,資料從產生到分析的全鏈路都在雲平臺完成,因此這類客戶需要雲上的解決方案來實現資料流通;還有很多企業的主要業務系統以及業務資料仍在自有IDC機房生成和加工處理,他們同樣也有資料流通的需求場景。
  • 資料計算和儲存系統不同:對於一些數字化轉型較早的企業,往往有完備的大資料計算和儲存系統,如自建Hadoop、雲上EMR、資料湖等,有現成的分散式計算和儲存能力;還有一些企業,還沒有完整的資料倉儲體系,資料還保留在MySQL、PostgreSQL等業務資料庫中,這種情況下所能提供的計算算力也比較有限。
  • 資料所處的網路環境不同:隱私計算場景下,不同企業的資料存在於不同的網路環境內,企業內的資料處理系統一般是不對外提供服務的,因此大部分場景下多方之間的隱私計算過程需要通過公網傳輸資料;當然,也有如金融類企業願意提供專線用於資料傳輸服務。

通過分析這些需求場景,我們不難得出以下幾點結論:

  • 隱私計算平臺是典型的多學科交叉領域,涉及工程、演算法、密碼、硬體等多個方向,涉及統計分析、機器學習兩大類應用場景,從廣度和深度上系統架構的複雜度都很高,需要足夠靈活的分層、分模組設計。
  • 針對不同型別的場景和安全訴求需要基於不同的隱私計算技術來提供解決方案,甚至需要同時結合多種隱私計算技術,形成一套解決方案來解決某一具體場景的問題。
  • 安全合規是隱私計算技術和產品的重要依據,因此,隱私計算平臺需要針對不同型別的資料融合計算場景,提供不同的隱私保護技術手段。
  • 不同客戶的資料分散在不同網路環境,大資料生態系統的現狀也會千差萬別,因此隱私計算平臺對資料來源、計算引擎、傳輸通道等元件的異構能力訴求是必然的,對雲上部署、獨立部署的能力也是基本要求。

DataTrust產品定位是通用的隱私計算產品,因此DataTrust工程技術架構能夠同時支援多種隱私計算技術,嚴格遵循隱私計算安全標準,按照模組外掛化的設計思路,適用於多種異構的計算、儲存、網路環境,支援雲上部署、獨立部署等輸出形態

隱私增強計算技術

  • 可信執行環境(Trusted Execution Environment,TEE)

TEE是硬體中的一個獨立的安全區域,由硬體來保證TEE中程式碼和資料的機密性和完整性。也就是說,TEE是硬體服務提供商應用硬體在現實世界中構造的安全計算環境。應用TEE實現隱私增強計算的過程可以通過下圖描述。

步驟1:各個參與方將自己的資料通過安全鏈路傳輸給TEE。

步驟2:TEE在保證機密性和完整性的條件下完成計算任務。

步驟3:TEE通過安全鏈路將計算結果傳送給各個參與方。

  • 安全多方計算(Secure Multi-Party Computation,MPC)

MPC是密碼學中的定義,在無可信計算方的情況下,多個參與方各自持有祕密輸入,並可完成對某個函式的計算,但每個參與方最終只能得到計算結果和能從自己輸入和計算結果中推出的資訊,其他資訊均可得到保護。安全多方計算的定義可以通過下圖描述。

  • 聯邦學習(Federated Learning,FL)

聯邦學習是一種多個參與方在保證各自原始私有資料不出資料方定義的私有邊界的前提下,協作完成某項機器學習任務的機器學習模式。根據隱私安全訴求與訓練效率的不同,可以通過MPC、同態加密(Homomorphic Encryption,HE)、差分隱私(定義見下)等多種方式實現聯邦學習。

  • 差分隱私(Differential Privacy,DP)

DP是一種基於對資料引入隨機擾動,並從理論層面度量隨機擾動所帶來的隱私保護程度的隱私保護方法。根據隨機擾動方式的不同,DP分為在原始資料層面進行隨機擾動的本地差分隱私(Local Differential Privacy,LDP)和在計算結果層面進行隨機擾動的中心差分隱私(Central Differential Privacy,CDP)。

以上幾種常用的隱私計算技術,從工程架構角度可以劃分為兩類:

  • 中心化的計算模式:即可信執行環境(TEE),在這種模式下,各參與方信任中立第三方,把原始資料安全加密後上傳到TEE環境,並進行後鏈路的統計分析、機器學習等。涉及的技術領域除了TEE,還需要輔助RSA、AES等加密技術手段。
  • 去中心化的計算模式:即安全多方計算(MPC)、聯邦學習(FL)等,在這些模式下,各參與方不願意把原始資料給到任何一方,包括任何第三方,各參與方按照多方計算的協議進行本地安全計算,傳輸協議資料、中間引數資料,最終完成聯合的統計分析、機器學習等。需要特別說明的是,在去中心化的多方安全計算過程中,還是不可避免的需要有一個協調方的角色負責雙方計算過程的協調、協議公共引數下發等過程,實際落地中,這個協調方可以由某一個參與方來承擔,也可以由雲平臺、第三方來承擔。涉及的技術領域除了MPC、FL,還需要輔助同態加密(HE)、差分隱私(DP)等技術。

DataTrust在工程架構設計階段,抽象出“協調方”的角色,既能夠在中心化場景下承擔任務協調與中心化可信計算的職責,又能夠在去中心化場景下承擔多個計算方之間的任務協調職責,從而最終形成一套統一的技術架構支援不同型別的隱私計算技術,在安全性和架構統一性上取得了很好的平衡。在此基礎上,進一步按照模組元件化設計,能夠支援靈活的部署形態具備各種異構環境下輸出的能力

DataTrust工程架構設計

基於以上思考,DataTrust隱私計算平臺從功能模組上設計包含兩個模組:

  • 雲上安全協調中心(Cloud Security Coordination Center,簡稱CSCC):以SaaS化服務部署在阿里雲公有云或專有云,亦可獨立化部署在客戶私網環境,承擔LSCC之間的任務協調排程、任務下發等協調性工作,同時還提供中心化的資料安全計算能力(即TEE可信執行環境)。
  • 本地安全計算中心(Local Security Computation Center,簡稱LSCC):提供本地化資料來源的管理、資料金鑰管理、數字簽名共識審批並提供本地化隱私增強計算能力,能保護客戶原始資料不出域,因此需要在使用者私網環境部署。

以下是DataTrust的工程技術架構圖:

  • 安全技術:底層基於不同型別的隱私計算技術,包括多方安全計算、同態加密、差分隱私、聯邦學習等軟體相關安全技術,以及SGX2.0等硬體相關安全技術;
  • 無量框架:抽象和設計一套工程框架,向下統一支援不同型別的安全技術,向上依次提供三層能力:

– 引擎層:提供不同協議的編譯過程、執行運算元庫等能力;提供任務排程執行相關能力,包括任務排程執行、資源管理、執行運算元庫等;提供不同型別計算引擎的抽象和管理能力;

– 服務層:面向產品功能提供服務實現,包括任務管理、審批管理、資料管理、租戶管理、系統配置等;

– API層:基於中間服務層提供的服務能力,面向業務前臺提供API介面能力;

  • 產品能力:DataTrust通過雲產品形式,輸出標準化的產品能力(CSCC+LSCC),同時能夠作為平臺技術提供方,被第三方產品、客戶方所整合,從而滿足定製化的需求場景;
  • 解決方案:從業務視角,面向客戶提供聯合分析、聯合建模、聯合預測等標準化的解決方案能力。

DataTrust在設計階段,從邏輯上拆分為了CSCC和LSCC兩個功能產品模組,針對不同的應用場景,在物理部署時可以靈活支援以下兩種不同的部署形態:

  • 雲上部署架構:雲上部署CSCC,客戶在雲上VPC或自有IDC機房等私域環境下部署LSCC。優點是各參與方無需部署和運維CSCC,由雲平臺作為第三方承擔協調方的職責,各參與方僅需部署輕量化的LSCC即可完成本地安全計算。

  • 獨立部署架構:一方客戶在自有IDC機房等私域環境下部署CSCC+LSCC,另一方客戶在自有IDC機房等私域環境下部署LSCC,雙方點對點完成多方聯合計算過程。該部署架構適用於金融等行業客戶,希望能夠不依賴於雲平臺、完全獨立部署的場景。優點是無需引用雲平臺負責多方之間的協調職責,但前提是參與方之間一方信任另一方來承擔協調職責。

DataTrust技術架構優勢

  • 嚴格遵循隱私計算安全標準
– 去中心化的多方計算架構:在客戶IDC/雲上VPC等自有網路環境部署本地安全計算客戶端(LSCC),雲上協調中心(CSCC)無法觸達客戶資料金鑰等敏感資訊,計算過程完全在客戶本地完成。
行業標準、評測、專利:國家眾多隱私計算標準、行業標準的參與制定者,工信部唯一一個頒發三項隱私計算評測的產品,通過金標委評測的產品,擁有多項國家發明專利、軟體著作權。
更高效、更安全的底層協議:緊貼業界前沿隱私計算學術研究,協議深度定製優化;創新性的理論研究成果,產學研有機結合與落地。
  • 模組外掛化、適配多種異構環境

遵循外掛化的設計思路,隨著支援業務落地過程中,目前已經支援了多種常見的配置源、資料來源、計算引擎、傳輸通道等核心元件外掛,而且能夠快速擴充套件新的外掛實現。

  • 雲原生容器化部署、多種部署交付形態

得益於靈活的技術架構、以及容器化的實現,DataTrust可以支援以下不同的部署形態:

– 雲上部署:Client/Server模式

– 獨立部署:Peer to Peer模式

– 一體機部署:軟硬體一體機模式

– LSCC部署:單機模式(最小化部署)、叢集模式(分散式部署)

    • 大資料場景高效能及規模化– 完整的、系統化的商用雲產品方案
      • 包含協議金鑰管理、協議編譯、資料來源管理、作業管理、作業排程執行等全鏈路產品化能力。
      • 支援多租戶的任務排程,支援即時排程、週期排程等排程方式。
      • 業界領先的執行效能,超大規模資料場景下的穩定服務,且支援規模化服務客戶。

– 靈活的平臺開放能力

    • 開放Open API,方便業務方整合開發、定製化開發場景。
    • 開放執行運算元開發框架,支援合作方、業務方自定義執行運算元的開發與整合。

業務落地案例

DataTrust已具備MPC、FL、TEE等多種隱私計算技術下的聯合分析、聯合學習的產品化解決方案能力,目前已在多個業務場景完成落地。

  • 聯合分析:一方內容媒體側和電商交易側做全鏈路營銷分析轉化,用來指導產品和營銷整體方案。

  • 聯合建模:廣告主和媒體側資料聯合建模,提高轉化率,用來指導投放策略。

以上是DataTrust在隱私計算領域從產品需求到工程架構的實踐之路。

後續我們將從不同的產品功能方向,進一步和大家分享DataTrust的更多技術實現細節,敬請期待哦~

隱私增強計算平臺DataTrust

DataTrust是行業領先的基於可信執行環境(Trusted Execution Environment,TEE)、安全多方計算(Secure Multi-Party Computation,MPC)、聯邦學習(Federated Learning,FL)、差分隱私(Differential Privacy,DP)等隱私增強計算(Privacy Enhancing Technique)技術打造的隱私增強計算平臺,在保障資料隱私及安全前提下完成多方資料聯合分析、聯合訓練、聯合預測,實現資料價值的流通,助力企業業務增長。