終於有人把隱私計算講明白了

陶然陶然發表於2022-05-07

   01 隱私計算技術的起源

  假設有兩個百萬富翁,他們都想知道誰更富有,但他們都想保護好自己的隱私,都不願意讓對方或者任何第三方知道自己真正擁有多少財富。那麼,如何在保護好雙方隱私的情況下,計算出誰更有錢呢?

  這是2000年圖靈獎得主姚期智院士在1982年提出的“百萬富翁”問題。這個燒腦的問題涉及這樣一個矛盾,如果想比較兩人誰更富有,兩人似乎就必須公佈自己的真實財產資料。但是,兩個人又都希望保護自己的隱私,不願讓對方或者任何第三方知道自己的財富。在普通人看來,這幾乎是一個無解的悖論。

  然而在專業學者眼裡,這是一個加密學問題,可以表述為“一組互不信任的參與方在需要保護隱私資訊以及沒有可信第三方的前提下進行協同計算的問題”。這也被稱為“多方安全計算”(Secure Multiparty Computation,SMC)問題。

  姚期智院士在提出“多方安全計算”概念的同時,也提出了自己的解決方案——混淆電路(Garbled Circuit)。隨著多方安全計算問題的提出,投入到多方安全計算研究的學者越來越多。除了混淆電路之外,祕密共享)、同態加密等技術也開始被用來解決多方安全計算問題,隱私計算技術也逐步發展了起來。

   02 隱私計算的概念

  多方安全計算在20世紀80年代初提出的時候,還只是作為一種亟待可行性驗證的技術理論,而後計算機算力不斷提高,移動網際網路、雲端計算和大資料等技術快速發展,催生了眾多新的服務模式和應用。

  這些服務和應用一方面為使用者提供精準、個性化的服務,給人們的生活帶來了極大便利;另一方面又採集了大量使用者的資訊,而所採集的資訊中往往含有大量包括病史、收入、身份、興趣及位置等在內的敏感資訊,對這些資訊的收集、共享、釋出、分析與利用等操作會直接或間接地洩露使用者隱私,給使用者帶來極大的威脅和困擾。

  個人隱私保護成為人們廣泛關注的焦點,人們也都認識到隱私資訊是大資料的重要組成部分,而隱私保護關乎個人、企業乃至國家的利益。

  針對隱私保護問題,學術界開展了大量的研究工作,包括多方安全計算技術在內的隱私保護技術在逐步完善發展中得以應用。然而,隱私缺乏定量化的定義,隱私保護的效果、隱私洩露的利益損失以及隱私保護方案融合的複雜性三者缺乏系統的計算模型,這就使得隱私資訊在不同系統和不同使用者間的共享、交換和分析過程中難以被準確刻畫和量化,阻礙了各類計算和資訊服務系統對隱私進行有效、統一的評價。

  針對這一問題,2016年,中國科學院資訊工程研究所研究員李鳳華等對隱私計算在概念上進行了界定:

  隱私計算是面向隱私資訊全生命週期保護的計算理論和方法,具體是指在處理視訊、音訊、影像、圖形、文字、數值、泛在網路行為資訊流等資訊時,對所涉及的隱私資訊進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、演算法及應用技術,支援多系統融合的隱私資訊保護。

  隱私計算涵蓋資訊所有者、蒐集者、釋出者和使用者在資訊採集、儲存、處理、釋出(含交換)、銷燬等全生命週期中的所有計算操作,是隱私資訊的所有權、管理權和使用權分離時隱私描述、度量、保護、效果評估、延伸控制、隱私洩露收益損失比、隱私分析複雜性等方面的可計算模型與公理化系統。

  同時,中國信通院根據資料的生命週期,將隱私計算技術分為資料儲存、資料傳輸、資料計算過程、資料計算結果4個方面,每個方面都涉及不同的技術,如圖1-1所示。資料儲存和資料傳輸技術相對成熟,讀者也可能應用過相關技術。

  ▲圖1-1 根據生命週期劃分的隱私計算技術

  根據資料生命週期,我們可以將隱私計算的參與方分為輸入方、計算方和結果使用方三個角色,如圖1-2所示。

  在一般的隱私計算應用中,至少有兩個參與方,部分參與方可以同時扮演兩個或兩個以上的角色。計算方進行隱私計算時需要注意“輸入隱私”和“輸出隱私”。輸入隱私是指參與方不能在非授權狀態下獲取或者解析出原始輸入資料以及中間計算結果,輸出隱私是指參與方不能從輸出結果反推出敏感資訊。

  ▲圖1-2 隱私計算參與方的三種角色

  聯合國全球大資料工作組將隱私保護計算技術定義為在處理和分析資料的過程中能保持資料的加密狀態、確保資料不會被洩露、無法被計算方以及其他非授權方獲取的技術。與之基本同義的一個概念是“隱私增強計算技術”,通常可換用。本文統一使用中文簡稱“隱私計算技術”。

   03 隱私計算技術的發展脈絡

  現在,除了MPC技術外,隱私計算領域還呈現出更多新的技術特點和解決方案。目前,從技術層面來說,隱私計算主要有兩類主流解決方案:一類是採用密碼學和分散式系統;另一類是採用基於硬體的可信執行環境(Trusted Execution Environment,TEE)。

  目前,密碼學方案以MPC為代表,通過祕密共享、不經意傳輸、混淆電路、同態加密等專業技術來實現。近幾年,其效能逐漸得到提升,在特定場景下已具有實際應用價值。基於硬體的可信執行環境方案是構建一個硬體安全區域,隱私資料僅在該安全區域內解密出來進行計算(安全區域之外,資料都以加密的形式存在)。

  其核心是將資料信任機制交給像英特爾、AMD等硬體方,且因其通用性較高且計算效能較好,受到了較多雲服務商的推崇。這種通過基於硬體的可信執行環境對使用中的資料進行保護的計算也被稱為機密計算(Confidential Computing)。

  另外,在人工智慧大資料應用的大背景下,近年來比較火熱的聯邦學習也是隱私計算領域主要推廣和應用的方法。

  圖1-3展示了各項隱私計算技術的發展時間線。可以看出,隱私計算技術還是比較“年輕”的技術。

  ▲圖1-3 隱私計算技術的發展時間線

  《騰訊隱私計算白皮書2021》將當前隱私計算的體系架構總結為圖1-4。一般而言,越是上層,其面臨的情況可能越複雜,往往會綜合運用下層中的多項技術進行安全防護。

  雖然根據多方安全計算的定義,聯邦學習(也就是圖1-4中的“聯合學習”)也應該屬於廣義的“多方安全計算”範疇,但可能是由於當前機器學習比較火熱,業界普遍將聯邦學習單獨列出。

  ▲圖1-4 隱私計算體系架構

   04 隱私計算技術的應用場景

  隱私計算技術可以為各參與方提供安全的合作模式,在確保資料合規使用的情況下,實現資料共享和資料價值挖掘,有著廣泛的應用前景。目前,隱私計算技術的應用場景還在不斷擴充套件。

  1. 金融行業

  在金融行業,資料渠道融合與風險控制是業務實施的重要部分。作為資料隱私安全的重要保障,隱私計算技術在金融領域的應用前景廣闊。

  隱私計算技術可以應用於金融行業的獲客和風控,比如多家金融機構在不洩露客戶個人資訊的前提下對客戶進行聯合畫像和產品推薦;在多頭借貸等場景下,在不洩露客戶已有貸款數額、各金融機構所擁有的黑名單等資訊的前提下有效評估客戶的信用情況,降低違約風險。

  以徵信系統為例,銀行、小貸公司等金融機構需要通過多個資訊渠道對潛在使用者的歷史記錄進行多維度計算分析。但由於這些資料具有很高的隱私性,且很多資訊渠道並不具備足夠安全可靠的資訊傳輸管控技術,徵信系統的資料豐富性不足或者維度缺失。

  如圖1-5所示,通過隱私計算中的多方安全計算技術,各金融機構、資訊渠道可形成徵信系統聯盟,各方資料無須離開本地就能提供資料分析服務。

  ▲圖1-5 基於多方安全計算技術的徵信系統聯盟

  2. 醫療健康行業

  在醫療健康行業,利用人工智慧技術針對病情與病例資料建立機器學習模型並訓練,可以提高醫療科研與病情推斷的效率,提升醫療服務的精準度。

  但是由於之前缺乏統籌規劃和頂層設計,各地醫院的資訊系統獨立且分散;同時,由於醫療資料屬於極度隱私的資訊,為了避免出現合規風險,各醫療機構普遍對資料持保守態度,病情與病例資料不允許離院共享,各醫療渠道資訊的資料融合難度極大,阻礙了醫療系統的智慧化發展。

  隱私計算技術能夠保護資料隱私,有望打破醫療資料孤島現象,在醫療行業大有可為。比如利用隱私計算中的聯邦學習技術,各醫療機構可實現在原始資料不離院的情況下進行聯合建模,如圖1-6所示。事實上,在醫療健康領域,隱私計算技術已經逐步落地。

  3. 政務行業

  在政務行業,隨著數字經濟的發展,智慧城市與政務大資料逐步深入人心,各地政府不斷加強推動大資料的規劃設計,多地政府設立大資料發展局、大資料管理局等相關管理機構。

  政務資料涉及醫保、社保、公積金、稅務、司法、交通等方方面面,隱私安全尤為重要,如能利用隱私計算技術打通政務資料、挖掘資料潛能,那麼智慧城市建設必將如虎添翼。

  舉例來說,隱私計算技術可以提供政府資料與電信企業、網際網路企業等社會資料融合的解決方案,比如可以聯合多部門的資料對道路交通狀況進行預判,實現車輛路線導航的最優規劃,減緩交通堵塞。目前,在一些地方政府的相關規劃裡,隱私計算技術有望成為下一個應用推廣的重點。

  ▲圖1-6 基於聯邦學習的醫療場景

  未來,隱私計算技術將廣泛應用於金融、保險、醫療、物流、汽車等眾多擁有隱私資料的領域,在解決資料隱私保護問題的時候,也幫助解決行業內資料孤島問題,為大量AI模型的訓練和技術落地提供一種合規的解決方案。

來自 “ 大資料DT ”, 原文作者:李偉榮;原文連結:https://mp.weixin.qq.com/s/7AK2sq2nWqJ-_-n12HspGA,如有侵權,請聯絡管理員刪除。

相關文章