RSA創新沙盒盤點 | Cape Privacy——基於加密機器學習的多方資料協作與隱私保護方案

綠盟科技發表於2021-05-13

RSAConference2021將於舊金山時間5月17日召開,這將是RSA大會有史以來第一次採用網路虛擬會議的形式舉辦。大會的Innovation Sandbox(沙盒)大賽作為“安全圈的奧斯卡”,每年都備受矚目,成為全球網路安全行業技術創新和投資的風向標。

 

前不久,RSA官方宣佈了最終入選創新沙盒的十強初創公司:WABBI、Satori、Abnormal Security、Apiiro、Axis Security、Cape Privacy、Deduce、Open Raven、STARATA、WIZ。

 

綠盟君將透過背景介紹、產品特點、點評分析等,帶大家瞭解入圍的十強廠商。今天,我們要介紹的是廠商是:Cape Privacy 

 

一、公司介紹

Cape Privacy成立於2018年1月,總部位於美國紐約。當前融資總額達到2500萬美元,包括最近一次2000萬美元的A輪融資,由Evolution Equity Partners領投,Tiger Global Management、Ridgeline Partners、Version One ventures、Radical ventures等多家投資公司參與[1]。其創始人兼CEO是Ché Wijesinghe,他擁有豐富的網路安全從事經驗和管理背景,曾先後擔任Datalogue(被Nike收購)、OmniSci、Composite Software(被Cisco收購)等公司的高管;團隊其他一些成員,來自美國、英國和法國多個國家,包括David Besemer、Morten Dahl和Ben Decoste,具有密碼學、資料科學和計算機領域的技術背景[2]。公司透過將機器學習和密碼學技術,致力構建與實現一個多方資料協作與隱私保護的企業級SaaS平臺,旨在解決隱私監管下的敏感資料共享難題。

 

在今年2021年RSA創新沙盒十家入選公司,有三家資料安全公司。除了本文介紹的Cape Privacy,還有Open Raven和Satori,其中後兩者聚焦在敏感資料發現/分類,資料洩露監控,與資料安全治理相關。在去年2020的創新沙盒角逐賽中,許多人說Securiti.ai奪冠有很多的一部分歸屬於商業原因和運氣成分。那麼,迴歸技術主導的創新,Cape Privacy作為掌握加密機器學習、密碼學等先進技術,實現了多方的資料協作與隱私保護方案。它這樣同時兼具創新技術和商業條件的公司,是否能一舉奪得今年的RSAC創新沙盒的冠軍?值得期待!

 

二、背景簡介

歐盟2018 年 5 月 25 日正式頒佈《通用資料保護條例》(General Data Protection Regulation,GDPR)。距離現今已經實施接近三年,先後多張鉅額的企業罰單相繼被開出。根據GDPR的執法跟蹤網站相關統計,截至當前,歐盟成員國從2018年共開出616件罰單,共罰款約2.79億歐元[3]。其中具有代表性是谷歌罰款事件,其備受關注——作為一家大型國際網際網路公司,谷歌卻陸續被歐盟的兩個國家罰款:2019年1月被法國處罰5000萬歐元,原因是執法方認為谷歌的隱私條款未充分體現GDPR公開透明和清晰原則;2020年3月被瑞典處罰700萬歐元,原因是谷歌未充分履行GDPR賦予使用者的資料“遺忘權”。

 

以GDPR為風向標,全球各個國家紛紛進行新的資料安全與隱私立法,並趨向更加嚴格趨勢。根據聯合國貿易發展組織(UNCTAD)截止當前的統計[4],全球194個國家中,共有132個國家制定了資料隱私相關法律,包括歐盟、美國、中國、俄羅斯和印度和澳大利亞、加拿大和日本等國家,佔所有國家總數的66%。其中具有代表性是美國加州,作為科技創新公司聚集地,2020年初實施《加利消費者隱私法案》(California Consumer Privacy Act 簡稱 CCPA),2020年底公開《加利福尼亞隱私權法案》(California Privacy Rights Act 簡稱 CPRA),被認為是CCPA強化版,在CCPA基礎上增加了更多嚴格的條款。近日,我國《資料安全法》、《個人資訊保護法》透過二次審議稿階段,這兩部重量級法規的距離落地腳步聲越來越近。無論是國外還是國內,這些法規無疑給企業(無論巨頭,還是中小型企業)帶來了巨大的合規壓力與挑戰。

 

隨著數字化轉型和人工智慧戰略,機器學習、深度學習等先進技術在各行各業的數字領域得到廣泛應用與推廣。然而,隨著GDPR、CCPA等法規實施,人工智慧的應用,特別是跨多方企業的應用中,其合規風險越來越高。例如GDPR對個人資料的處理以及共享作出較高限制,CCPA條款明確指出未經消費者同意不能與第三方共享使用者資料。然而,資料在流動過程中將價值發揮最大化,企業間的資料共享、計算與交換場景與需求越來越多,這給企業的數字化轉型、AI戰略價值構成了巨大的障礙。

 

如何保證在資料共享實現資料價值挖掘而保障資料安全、滿足合規性是一個關鍵性問題。Cape Privacy聲稱建立更強大的人工智慧解決方案,企業可以在不洩露任何機密資料的情況下實現了協同機器學習,從而對敏感資料的安全可信的訪問中獲取資料的價值。這是否是資料共享中合規挑戰的解決之道呢?接下來我們對Cape Privacy的產品以及應用進行分析和解讀。

 

三、 公司產品與應用

Cape Privacy公司的開發團隊從2018至2020花了兩年時間推出了公司產品的Alpha版本——Cape平臺測試版。據最近一次的採訪,其公司CEO聲稱產品在2021年已經大量改進和完善,在一些場景可進行商業應用[3]。值得一提的是,該初創公司透過專案開源和社群的模式推動產品孵化,不僅有Cape Privacy公司的員工搭建框架和貢獻程式碼,同時也有一些外部開發人員會加入貢獻程式碼。

 

本章節首先解讀Cape Privacy公司的產品——Cape平臺,然後介紹公司產品的應用場景,最後簡介Cape Privacy主導的幾個有代表性且與產品相關的Github開源專案。

 

3.1 Cape平臺

Cape平臺是一個基於加密機器學習的多方資料協作平臺,它透過先進密碼學、隱私保護,以及機器學習技術確保企業組織共享資料的安全狀態下改善資料模型從而提升業務價值。

 

如圖1所示,A、B和C三家公司希望透過資料共享實現聯合建模,例如三家不同銀行希望融合大量的資料樣本,聯合建立一個信用評分風控模型。然而現實是,由於客戶隱私、以及法律合規的原因,三家銀行不能直接共享這些敏感資料,這看似是矛盾的。但是,Cape平臺可以透過加密機器學習技術,對原始的敏感資料進行加密(例如同態加密、秘密共享、不經意傳輸、混淆電路等密碼技術),在加密資料進行計算與聯合建模。原始資料不出本地,即A、B和C三家公司流出是加密後的,不暴露敏感資訊,在不解密的情況實現計算與學習(work with protected data without decrypting it),實現“可用不可見”的效果。

RSA創新沙盒盤點 | Cape Privacy——基於加密機器學習的多方資料協作與隱私保護方案

圖1  Cape平臺的多方敏感資料共享的框圖

 

具體來說,Cape平臺目前提供以下三個核心元件:

1) Cape雲服務(也稱為“Cape”),使用者可以在這裡新建資料科學專案,以便與其他組織進行協作。該服務還包括Cape代理,使用者可以輕鬆且安全地進行連線雲服務。

 

2) Cape Workers,由使用者來管理和執行加密學習任務,比如使用Cape Workers訪問本地資料,對本地資料使用安全多方計算等技術加密資料,連線傳輸給Cape代理。

 

3) Python庫pycape,透過使用pycape,使用者可以與他的Cape專案進行互動,檢視和更新專案的詳細資訊,且可以對資料集進行操作或將資料集加密上傳到Cape。

 

從上面的三個核心元件可以看出,Cape平臺實際上是雲-本地部署的計算架構。由於對原始資料和中間計算狀態是加密的且計算任務在加密資料中進行,因此雲服務可以是第三方,即公有云。據官方介紹,目前支援部署在亞馬遜雲S3。這與Cape Privacy公司的願景是一致的——為客戶提供安全可用的支援加密機器學習的企業SaaS平臺。

 

由於Cape平臺是涉及多方的資料協作平臺,Cape 雲服務支援給不同的參與方分配不同的角色,以滿足不同的許可權和製作需求。這些角色可分為組織級角色、專案級角色兩大類[6],其具體的權責如下:

 

1) 組織級角色(Organizational-Level Roles),有3類:

組織級管理員(Organizational-Level Administrator):管理員具有Cape上所有功能的全部許可權。它是由超級管理員擔任的角色,這些超級管理員需要與其他使用者配合使用,並在Cape上具有最高階別的許可權。具有組織的完整許可權,包括:可以在組織中新增或刪除人員、可以更改組織中任何成員的角色、可以刪除組織。此外,具有後文介紹的專案級管理員所有的許可權。

 

操作員(Operator):操作員控制組織的令牌,並負責部署,執行和監控Cape Workers。他們能夠撤消令牌並檢視組織的所有專案和專案活動。具有的許可權包括:可以檢視所有組織專案和工作/專案活動、可以發行/撤銷組織令牌、能夠安裝和下載Cape Workers。

 

使用者(User):Cape使用者可以檢視他們所屬的專案,也可以加入和離開被邀請參加的專案。他們只能檢視和加入由Cape組織或專案管理員邀請的專案。具有的許可權包括:組織或專案管理員邀請我加入和離開專案、可以檢視專案頁面和日誌,但不能更改資料檢視/任務、批准或拒絕任務。

 

2) 專案級角色(Project-Level Roles),有3類:

專案級管理員(Project-Level Administrator):專案管理員具有其在Cape上對其組織專案的全部許可權,可以在其所屬的專案上新增和編輯參與者,並執行必要的專案操作,例如新增和刪除資料檢視或批准和執行加密的學習任務。組織所屬的所有專案的完整許可權,包括:可以在所有專案中新增或編輯貢獻者、可以新增,刪除所有專案的資料檢視、可以批准和執行所有專案的加密學習任務,如圖2所示。

RSA創新沙盒盤點 | Cape Privacy——基於加密機器學習的多方資料協作與隱私保護方案

圖2  專案級管理員的任務管理(需同意、執行、完成)

 

資料科學家(Data Scientist):資料科學家可以新增、刪除和編輯資料檢視,以及建立,執行,拒絕和批准專案的加密學習任務。他們只能檢視和加入由Cape組織或專案管理員邀請的專案。資料科學家許可權包括:組織或專案管理員邀請我加入和離開專案、可以新增,刪除自己方參與的專案的資料檢視、可以為自己方參與的專案建立,批准,執行加密的學習作業、如果自己方的組織是模型所有者,則可以訪問作業的度量標準和模型權重。

 

使用者(User):專案級的使用者與組織級使用者具有相同的許可權(同上文描述)。

 

Cape平臺除了在加密資料中學習與計算、多方參與多種角色的特點,還具有以下的功能特點:

1) 加密機器學習模型的訓練速度更快

Cape Privacy最佳化了加密機器學習的底層加密協議,使加密資料的使用沒有過多的計算開銷和延遲,同時也提高了機器學習的成功率。

2) 多方資料協作訓練過程中支援視覺化

如圖3所示,多方資料協作訓練過程是視覺化的。

 

RSA創新沙盒盤點 | Cape Privacy——基於加密機器學習的多方資料協作與隱私保護方案

圖3  Cape平臺多方資料協作視覺化

 

3) 技術的安全性透過同行評審進行背書

Cape Privacy公司基本核心價值觀是尊重、合作和信任。如何確保隱私保護技術是可信任的,是安全的。Cape Privacy對新的隱私保護技術的研究採取公開發布,同行評審機制,一些技術成果會發表會議會期刊論文中。同時透過開源專案和社群的模式驅動產品孵化,一些底層演算法庫做到公開透明。

 

3.2 應用場景

Cape平臺產品可以在以下三種場景進行應用:

1) 金融服務

加密機器學習允許金融機構與其他第三方進行合作,以消除資料集的偏差,確定一些基本事實。

2) 生命科學

透過使用個人醫療資訊(PHI)、健康和臨床試驗資料,透過使用跨組織的機器學習,解決有偏見或不準確的資料和模型。

3) 政府

對位置或其他個人資訊進行加密,以消除潛在的資料濫用同時,推動公共安全的進步。

 

3.3 開源專案

Cape Privacy在Github開源多個加密機器學習相關專案,下面介紹3個具有代表性的專案。

1) pycape

Cape平臺核心的三個元件之一,是一個Python編寫的模組,可實現與Cape雲服務元件進行資料互動。該專案最近一年更新十分活躍。具體地,透過pycape模組,可以實現:

·       建立和查詢資料檢視,或指向Cape雲服務中的加密機器學習模型訓練過程中所需的資料位置。

·       提交和跟蹤任務,這些任務可以看成計算會話,包含如何訓練模型的說明。

·       網址:https://github.com/capeprivacy/pycape

 

2) Cape Python

它是一個支援資料轉換和隱私保護策略(比如不同的脫敏方法,包括雜湊、置換、近似)的Python庫,可用於Pandas和Apache Spark建立的資料科學專案。

網址:https://github.com/capeprivacy/cape-python

 

3) TF Encrypted

它是一個構建在TensorFlow之上的Python庫,供研究人員和從業者實驗保護隱私的機器學習。它封裝一些密碼底層協議與庫,僅提供了一個類似於TensorFlow的介面,目的是無需研究和開發人員是密碼學、隱私保護的專家情況下,讓這項技術仍然隨時呼叫。TF Encrypted針對基於張量的應用程式進行大量的最佳化,依賴於TensorFlow的後端意味著執行時效能可與獨立的TensorFlow框架執行相媲美。

網址:

https://github.com/tf-encrypted/tf-encrypted

 

四、技術解讀

從Cape privacy的官網介紹以及開源專案可以看出,它提供的多方資料協作與隱私保護的企業級SaaS平臺的核心技術是安全多方計算、同態加密等核心技術。實際上,Cape平臺支援多方聯合的機器學習建模與訓練,這與近年來資料安全領域的創新技術——“聯邦學習”實現的效果幾乎完全趨同,因此也可以看成一種聯邦學習方案。下面從一個簡單例子對聯邦學習(加密機器學習)做一個直觀的認識,然後對其原理、發展進行一個全貌性的概述。

 

4.1 簡單理解的例子

Cape平臺無需解密密文資料,即在加密資料即可實現資料的處理與機器學習訓練,其中使用同態加密、秘密分享、混淆電路、不經意傳輸等先進的密碼技術。其中同態加密技術是如何構建加密的機器學習(聯邦學習)方案,官網給出一個簡單的示例。

 

首先,考慮一個普通的演算法,如a + b = c,如果你輸入2和3函式會產生5。現在考慮一個特殊的加密函式,如Enc(a) + Enc(b) = Enc(a+b) =Enc(c),這種性質稱為滿足“加法同態加密”性質,比如Paillier加密系統。如果輸入Enc(2)和Enc(3),將它們進行運算Enc (2) + Enc (3),那麼將生成Enc(5)。那麼,在此過程中,可以在不解密的情況下將兩個數字相加來產生輸出。結果輸出仍然是加密的,只能由使用金鑰的人解密,可顯示答案是5。

 

同樣的方法可以應用於加密機器學習模型中,比如線性迴歸是一個加法和一個矩陣乘法:aX + b = Y;加密的線性迴歸為:Enc(aX) + Enc(b) = Enc(Y),對加密資料執行加密的線性迴歸模型將產生加密的Enc(Y)結果。這使得使用者可以在加密資料中機器學習模型訓練與預測,而不暴露或讀取資料,如圖4所示。這意味著資料科學家可以透過這種技術,實現多方資料的協作與共享,從而提高他們的模型的準確性。

RSA創新沙盒盤點 | Cape Privacy——基於加密機器學習的多方資料協作與隱私保護方案

圖4  加密線性迴歸模型的簡單示例

 

4.2 聯邦學習概述

聯邦學習(Federated Learning, FL)概念最早由谷歌在2016年提出,原本用於解決大規模Android終端協同分散式機器學習的隱私保護問題,它有機融合了機器學習、分散式通訊、以及隱私保護技術與理論。隨著全球隱私法規的強化,以及資料利用需求旺盛,自從聯邦學習概念提出以來,在學術界和工業界受到廣泛的關注,發展十分迅速。

 

聯邦學習可以使得多個參與方(如企業、使用者移動裝置)在不交換原始資料情況下(也表述為“敏感資料不出本地”),實現聯合機器學習建模、訓練和模型部署。聯邦學習按照參與各方使用資料集的不同場景可分為三種類別:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。按照聯邦學習演算法型別可分為聯邦線性迴歸、聯邦提升樹、聯邦神經網路等。目前亟需解決的聯邦學習的是演算法效率、精度、通訊機制以及參與方的誠信等問題。

 

聯邦學習有兩大類場景應用:B2C場景——移動裝置的隱私資料採集與機器學習,如谷歌、蘋果在Android、iOS裝置的應用;B2B場景——企業組織間的敏感資料共享與機器學習,如多家銀行聯合建立風控模型。在具體的行業應用上,國內外多家企業開展了探索,並且實現了一些商業落地案例。如谷歌將聯邦學習應用在Android手機的新聞推薦上,並開源了TensorFlow Federated框架;Intel 將TEE(可信任執行環境)技術與聯邦學習進行結合;國內的微眾銀行為代表將聯邦學習應用在保險定價、影像檢測等領域,並開源了FATE聯邦學習框架;此外,百度、騰訊和京東等廠商均推出了聯邦學習相關產品與應用。

 

具體的聯邦學習技術介紹可參考文章《十種前沿資料安全技術,聚焦企業合規痛點》以及相關的研究報告。

 

五、總結與點評

無論是歐盟GDPR,美國CCPA,還是中國呼之欲出的《資料安全法》、《個人資訊保護法》兩部法規的未來落地,國內外公司繞不開的迫切需亟需解決的安全問題——遵循資料安全合規。為了應對挑戰,從目前的合規產品與應用市場來看,筆者將其分為三類:

 

第一類是滿足顯式合規需求的相關產品與工具,比如Securiti.ai和 OneTrust提供的合規性檢查協作平臺、使用者資料權利(訪問權、修改權、限制處理權等)的請求-響應自動化工具(參考《RSA2020創新沙盒Securiti.ai—解決隱私合規痛點的一站式自動化方案》);

 

第二類是可以有效降低企業內部合規風險的產品,一般是敏感資料的“識別-防護-評估”為基本體系的資料安全治理方案,比如BigID提供的敏感資料識別產品、以及Microsoft、IBM的資料脫敏產品,以及國內分類分級、資料脫敏產品,該方向技術和市場較為成熟;

 

第三類是支援跨企業的敏感資料共享與傳輸的合規技術與產品,這類產品吸引人的地方在於滿足合規同時獲得巨大的業務價值。國內外隱私法規均顯式、隱式指出一般不允許企業將隱私資料與第三方共享,但一般也會直接或間接給出兩條路徑:一條是徵求所有使用者的同意,另一條路徑對原始的個人資料進行處理,已達到“匿名化資訊”的目標效果。

 

顯然地,Cape Privacy公司提供的基於加密機器學習的多方資料協作與隱私保護方案屬於第三類的範疇。公司的產品Cape平臺,透過先進的密碼學和隱私保護與機器學習相結合(聯邦學習類技術),可確保跨企業的多方資料共享的安全下改善資料模型同時提升業務價值。值得一提的是,2019年RSAC創新沙盒亞軍——Duality公司,也屬於第三類範疇,它透過定製硬體、演算法最佳化將同態加密技術的進行商業應用(《RSA2019創新沙盒Duality:基於同態加密的資料分析和隱私保護方案》)。如果說2019年是第三類創新技術在商業應用上的第一次亮相,那麼該類技術經過兩年時間的快速發展,由於其可觀的商業價值逐步形成資料安全領域新的賽道,Cape Privacy在專案開源驅動、新技術經過嚴格的評審、更多的場景應用、雲服務模式等,這些顯示該領域巨大進步,技術研究開始走向產業生態、商業模式逐漸形成。Gartner在2020年預測報告,將同態加密、安全多方計算、機密計算(TEE)等技術稱為隱私增強計算(Privacy Enhanced Computation)類技術,並將其與隨處運營、人工智慧工程化等作為2021年六大重要戰略科技趨勢,其技術的價值未來仍有巨大的研究與發展空間。

 

自2018年至2021年連續四年來,資料安全一直是RSAC創新沙盒比賽的焦點,每年都至少有一家是資料安全的初創公司入選。今年更是一個爆點,更是有三家相關公司——Cape Privacy、Open Raven、Satori,其中Open Raven專注雲資產發現、敏感資料發現/分類和資料洩露監控,Satori專注敏感資料發現/分類、訪問控制策略和資料脫敏,根據前面的劃分原則,它們均屬於第二類範疇,是降低合規風險的資料安全治理相關產品。

 

在前三年的創新沙盒比賽中,2018 年BigID獲得冠軍(第二類範疇,資料安全治理),2019 Duality 亞軍(第三類範疇,同態加密技術的商業應用),2020 Securiti.ai冠軍(第一類範疇,滿足GDPR/CCPA的顯式合規)。Cape Privacy公司透過加密機器學習(聯邦學習)技術,致力構建與實現一個多方資料協作與隱私保護的企業級SaaS平臺,旨在解決隱私監管下的敏感資料共享難題。從技術創新角度是講,技術是足夠創新與新穎的;從商業價值上看,由於資料共享與機器學習的業務,尤其是金融、醫療等敏感領域,價值回報是可觀的;從技術團隊上看,公司CEO具有多家成功創業公司的管理經驗,團隊其他一些成員具有密碼學、資料科學和計算機領域的技術背景。有趣是,它們這個技術團隊,來自美國、英國和法國多個國家,具有天然的“分散式”基因。基於以上的分析,筆者繼續看好2021年RSAC創新沙盒三家的資料安全公司,並認為Cape Privacy有較大的可能性奪得今年的冠軍。

·   參考資料    ·    

[1] https://www.crunchbase.com/organization/cape-privacy.

[2] Cape Privacy Homepage. https://capeprivacy.com/.

[3] https://www.enforcementtracker.com/

[4] https://unctad.org/page/data-protection-and-privacy-legislation-worldwide

[5]https://techcrunch.com/2021/04/20/cape-privacy-announces-20m-series-a-to-help-companies-securely-share-data/

[6] https://docs.capeprivacy.com/understand/architecture/

相關文章