2022隱私計算十大觀察

qing_yun發表於2022-07-14

為推動隱私計算產業進一步發展,由中國通訊標準化協會指導,中國資訊通訊研究院(以下簡稱“中國信通院”)、隱私計算聯盟主辦的2022隱私計算大會於7月13日在北京召開。

在大會主論壇上,中國信通院雲端計算與大資料研究所所長何寶巨集釋出了2022隱私計算十大觀察。

以下為演講實錄

大家好,我是中國信通院何寶巨集。下面由我為大家釋出我們雲大所和隱私計算聯盟這一年來對隱私計算行業發展的思考和觀察。觀察覆蓋政策、技術、產業、應用、合規性等內容,共10條。

觀點一:資料產權分置,隱私計算迎來發展機遇

作為平衡資料流通與安全的重要工具,近幾年,工業和資訊化部、人民銀行、國家發改委、中央網信辦等部門政策檔案中均提到要推進隱私計算相關技術的研究攻關和部署應用,使得技術的關注度日漸提升;近期,隨著中央全面深化改革委員會第二十六次會議上審議通過了《關於構建資料基礎制度更好發揮資料要素作用的意見》,建立資料資源持有權、資料加工使用權、資料產品經營權等分置的產權執行機制、建立合規高效的資料要素流通和交易制度等舉措,為實現原始資料不出域、資料可用不可見的隱私計算提供了更加明確的落地指引。

觀點二:技術體系擴充套件,隱私計算概念外延深化

早在2016年,李鳳華教授等人提出隱私計算是面向隱私資訊全生命週期保護的計算理論和方法。後來我們在資料流通場景中對其概念進行延伸,將隱私計算的概念定義為不洩露原始資料前提下,保障資料在流通與融合過程中的“可用不可見”的一系列技術,以多方安全計算、聯邦學習和可信執行環境三大方法為代表。而今,隨著隱私保護的需求越來越重視,隱私計算也稱隱私增強計算、隱私保護計算,其範疇逐漸擴大。例如,今年美國發布的法案中定義其為減輕資料處理所產生的個人隱私風險的任何軟硬體技術。因此,我們認為廣義的隱私計算是涵蓋隱私資訊全生命週期過程的所有計算操作,包括任何實現隱私保護前提下資料安全流通共享的技術。除多方安全計算、聯邦學習、可信執行環境這傳統三大方法外,還包括資料限制釋出的技術、資料失真的技術和一些輔助技術。未來,可能還會隨著技術的發展,將包括一些新的技術內容,技術外延將進一步擴充套件。

觀點三:技術路線融合,優勢互補突破應用瓶頸

隱私計算的三大主流路線各自有著其獨特的優勢與不足,這些不足阻礙了隱私計算的落地應用。

a. 基於多方安全計算(MPC)的隱私計算具有較高的安全性,能夠做到可證明安全,但是因為協議本身需要大量的額外通訊與計算,導致其計算效率差,高安全假設的方案難以在現實場景中被使用;

b. 基於聯邦學習(FL)的隱私計算針對多方聯合機器學習有著較好的適配性,相比MPC方式,其能夠在更為合理的效能範圍之內完成聯合機器學習任務。然而,聯邦學習的安全性參差不齊,安全基準設定困難,安全性較難評估,加重了使用者對聯邦學習的安全困擾;

c. 基於可信執行環境(TEE)的隱私計算結合了密碼技術與可信硬體,能夠在不過多損失效能的前提下,通過可信認證、一致性核驗、密文傳輸、計算隔絕等一系列手段保護來保護資料隱私。但是,基於TEE的方式多需要將資料集中處理,若攻擊者通過如側通道攻擊等方式破環了可信硬體的安全性,可能會導致明文資料洩露。

根據對市場各廠商、產品的調研,我們發現隱私計算的技術融合已經成為了一大趨勢。在一些場景下,技術融合往往能夠產生1+1>2的效果,為解決隱私計算的各類技術瓶頸提供了新思路。

將MPC與FL融合,以實現更加安全的聯邦學習聚合演算法,如通過祕密分享或全同態加密等方式在密態的環境下完成模型引數聚合;

將TEE與FL融合,藉助TEE的可信性和隔絕性實現模型引數的安全匯聚,增強FL的安全性;

將MPC與TEE融合,通過MPC將明文態的資料轉為密態後放入TEE進行計算,防止因TEE被破壞而洩露資料隱私;藉助TEE的隔絕性、保密性、一致性等能力,將跨網的MPC計算節點安全的放置在同一網路內,解決MPC普遍存在的通訊瓶頸問題,提高效能。

觀點四:平衡安全效能,安全分級靈活適應場景

一般來說,隱私計算的安全與效能兩者相互制約。安全假設較弱時,其效能普遍較強;反之,安全假設較強時,其效能普遍較弱。高安全假設的方案會極大增加額外通訊和計算負擔,造成效能不具備實用性。

根據中國信通院“可信隱私計算”效能專項評測以及對一些相關論文的結果分析,我們在圖中舉例列出了三類安全假設下的平均效能情況。在參與方半誠實且不存在合謀風險的情況下,針對聯合機器學習任務,計算耗時能夠達到明文的50-200倍;在滿足半誠實模型假設並且部分滿足惡意模型,存在少數不誠實方的前提下,計算耗時提升到了約為明文計算的100倍以上;在最嚴格的不誠實大多數惡意模型假設下,計算耗時更是增長到了約為明文計算的近千倍以上。因此,在實際的業務場景中,很多情況並不需要考慮如惡意參與方或合謀攻擊的問題,盲目的選擇高安全方案也是不可取的。應根據實際需求選擇適合的安全等級,實現安全與效能的動態平衡,避免唯安全論/唯效能論。

觀點五:支撐產品落地,技術可用性有一定提升

隱私計算已經從去年的場景驗證階段邁入今年的場景落地應用階段,除了安全性,隱私計算的可用性也受到各方的極大關注。可用性是應用場景能夠規模落地的主要抓手。可用性主要包括計算效能、系統穩定性、產品易用性和場景支援能力。

效能方面,通過演算法優化、平行計算或加速卡、一體機來加速計算效率。當下,效能已經可以支援億級資料的計算,高併發XGB演算法建模效率相比之前可提高至少50%;此外,市面上已經不少家廠商推出了一體機產品,計算效率可提升數十到數百位。

穩定性方面,主備、多活和自動容災恢復的能力在產品應用中也有顯現,比如本批次測試中MPC產品穩定性用例的通過比率已由去年的10%提高到40%。

易用性和場景支援能力方面,通過拖拉拽、駕駛艙等互動介面的視覺化,降低了使用者學習成本;我們也觀察到約9成以上的產品具備視覺化操作和容器化部署等易用效能力。同時,今年以來,金融、政務、醫療場景案例有明顯提升。對金融的實時性業務場景、海量資料高併發場景的支援能力也有顯著的提升。

觀點六:軟體硬體協同,一體機成為產品新形態

當下,利用硬體特性增強軟體方案,實現隱私計算效能和安全性的同時提升是主流的方法。一是隱私計算一體機作為軟硬結合一體的專用裝置,其安全加固、效能加速和易用性增強的三大優勢,使得隱私計算一體機從眾多工程優化方案中脫穎而出,降低使用者使用技術門檻和綜合成本。二是基於硬體的實現方式並不唯一,各家產品百花齊放。可基於可信硬體或硬體密碼模組,也可利用計算加速卡,同時還可以預裝應用服務場景元件,組合方案多樣化,多硬體多角度組合提升成為軟硬結合的發展趨勢,根據不完全統計也可看出,加速卡因其容易實現,因此在目前的軟硬結合方案中佔比較大。三是一體機等軟硬結合的方案在金融政務醫療等場景嶄露頭角,且因為產品形態多樣,標準化需求迫切,國內外已有多個標準帶頭規範技術研發和應用。最後,並非僅有隱私計算一體機可以突破應用瓶頸,擴大應用規模,軟硬結合的多種落地方案仍需進一步探索,加快場景落地。

觀點七:應用落地加速,內外雙向賦能資料流通

行業應用方面,我們根據2019-2022年政府公開招標專案整理,發現隱私計算在金融、通訊、政務、醫療等行業的應用比較多。在整理的招標專案中,來自金融行業的專案佔比最高,達到55%,主要包含銀行、證券、保險、金融科技公司等;其他是通訊行業佔比17%,主要是運營商;政務行業佔比13%,主要來自政府機構、政府部門、事業單位等;醫療行業佔比8%,主要來自醫院、研究機構等。不同行業建設部署目的分佈不同。我們用對內賦能、對外賦能、雙向賦能這三個概念進行區分。對內賦能是指招標方通過隱私計算平臺引入外部資料或能力提升內部業務效果,也就是通常說的“買入資料”;對外賦能是指招標方通過隱私計算平臺對外輸出資料或能力,也就是通常說的“賣出資料”;而雙向賦能則是同時進行。我們發現,不同行業的賦能方向差異很大。比如,金融行業55%的專案目的為對內賦能,主要為聯合通訊、網際網路、其他金融機構等資料資源提升自身風控、營銷水平。而反過來,網際網路、通訊、醫療、能源行業對外賦能佔比均超50%,以資料運營、資料服務方式對外輸出自身的資料價值。政務行業雙向賦能佔比較高,一是通過政務資料內部共享,實現政務資料整合和協同共享;二是通過政務資料對外開放、資料運營對外賦能,如打通銀政企資訊孤島促進普惠金融,如通訊資料提升反欺詐效果。

觀點八:各方積極探索,合規路徑亟需形成共識

合規性方面,我們認為隱私計算的合規性這兩年來大家積極探索,但路徑的共識還需要進一步形成。在我國現行的法律框架內,匿名化和授權同意是資料處理最主要的兩條合規路徑。而隱私計算合規性的關鍵爭議就在於隱私計算技術的資料處理效果是否可以滿足法律上“不可復原、不可識別”的匿名化要求。

一方面,如果認為隱私計算完全滿足匿名化要求,則無需經過授權同意,但現有法律中的“匿名化”要求被認為在絕大多數應用場景中都無法達到,監管層面還沒有可解釋的具體規則,這類觀點很難被接受,

另一方面,如果認為隱私計算僅能滿足去標識化要求,達不到匿名化的標準,那麼資料處理的物件仍然是個人資料,仍然需要資料處理全流程的授權同意,這必然會降低隱私計算技術應用的吸引力,

因此,為了兼顧合規要求和應用效率,業界開始探索隱私計算的創新合規路徑,即認為隱私計算可以在一定程度上滿足匿名化要求,但仍需結合不同場景對關鍵事項獲取授權同意。這就需要對隱私計算的各個技術環節進行拆解,明確需要關注的風險點和合規最佳實踐,建立技術上的匿名化規則,同時也要嘗試去探索在各個場景下對個人資訊主體造成權益侵害的環節和事項,對這些事項進行詳細告知,從而在權益保護和技術發展之間尋求平衡。當然,這種實踐的思路還處於一個初期設想階段,仍然需要技術和法律界同仁的共同努力,從而為隱私計算等技術的合規發展提供更為清晰的指引。

觀點九:激發技術創新,隱私計算積極擁抱開源

再說說開源。開源作為激發技術創新和建立技術生態的主要手段,在大資料時代已演變得越來越成熟,許多基礎設施軟體都是由開源而來。隱私計算作為資料流通的基礎設施同樣也是如此,除了開源的通用優勢外,由於資料全流程的安全性非常重要,將程式碼開放會讓安全性變得更加易於驗證;開源社群內的交流和反饋也會激發技術創新,創造滿足不同場景需求的多種技術方案。此外,當前隱私計算大部分企業技術方案迥異,導致難以互通,應用方通常需要部署多種產品,而隱私計算的開源會讓使用者更易達成共識,也有利於隱私計算的互聯互通。

當前隱私計算開源專案大致可分為協議框架開源和產品開源,協議框架開源大部分是針對於某一技術,如MPC領域的mp-spdz、OpenCheetah等,專注於的安全與效能提升。另外也有對產品平臺的開源,更易形成生態。總體來講,優秀的底層開源協議可以嵌入到平臺中被廣泛應用,而隱私計算的產品開源專案大部分仍處於初期,僅程式碼開放但社群建設不完備。

下圖是國內外主要的開源平臺或協議框架,可以看出近三年越來越多的企業加入隱私計算開源隊伍,有包括底層技術協議,也有企業的平臺類專案,其主要特點包括易用性,方便流程簡易部署方便,使用者能快速上手;可擴充套件性,指產品架構可分為底層演算法協議、運算元層和應用層等,各層之間可獨立開發,並支援模組化;完備性是指能支援包括聯合統計、隱私集合求交、建模等多種功能,每種功能也有滿足不同效能與安全要求的演算法;最後相容性是能為未來互聯互通作準備,架構設計上能相容其他框架。我們對於未來隱私計算的開源技術和商業模式充滿信心。

觀點十:共識繼續強化,互聯互通加速落地實踐

最後是關於互聯互通的觀察。隨著隱私計算應用的逐漸鋪開,互聯互通的需求共識也進一步增強。我們應該認識到互聯互通既是降低隱私計算部署和應用成本的現實需求,又能夠促進技術產品介面和服務的標準化,為打造資料流通基礎設施夯實基礎。

此前一年多的實踐,大家主要圍繞互聯互通的概念、內涵和標準框架進行討論和探索,從標準體系層,包括中國信通院雲大所牽頭的隱私計算聯盟、大資料技術標準推進委員會(TC601)、全國資訊保安標準化技術委員會(TC260)、北京金融科技產業聯盟、IEEE等在內的標準化組織和研究機構都在推進相關技術標準的研討和編寫;去年7月釋出的《隱私計算 跨平臺互聯互通 第1部分:總體框架》也得到了眾多專家的認可。

但是,我們也認識到僅靠標準層面的、原則性的框架要求很難指導實踐落地,具體如何實現互聯互通,各個技術提供方和應用需求方的觀望多於行動,大家都呼喚可以看到具有標杆性、影響力的可落地、可複製、可驗證的實踐案例來提供參考;今年初公開的招商銀行連同4家技術廠商實現的互聯互通相對此前已在具體應用層面取得了新的進展,但同很多此前公開宣傳的案例一樣,可驗證、可落地、可複製性等仍然不足,因此,更加成熟的、示範性案例將是接下來促進互聯互通實踐落地的關鍵。

好,以上就是我們這一年度對於隱私計算行業的發展觀察。在此,感謝聯盟成員對我們一貫的支援和認可。下半年,我們將會發布《隱私計算白皮書(2022年)》,裡面將有更多更詳實的資料和統計結果,敬請大家期待。謝謝!

來自 “ 隱私計算聯盟 ”, 原文作者:何寶巨集演講;原文連結:https://mp.weixin.qq.com/s/KqcaCQv3FjItqln-9Pkhlg,如有侵權,請聯絡管理員刪除。

相關文章