這幾年,人們都在談論大模型。特別是在 Scaling Law 的指導下,人們寄希望於將更大規模的資料用於訓練,以無限提升模型的智慧水平。在中國,「資料」作為一種與土地、勞動力、資本、技術並列的生產要素,價值越來越被重視。
近年來,中國資料要素市場化建設的步伐明顯提速。讓「資料」發揮價值的關鍵在於不同主體、不同場景下的資料流通複用。資料要素跟傳統的生產要素有本質差別,資料的價值具有雙面性,業務價值越大,風險成本越高。營造資料可信流通可信環境,則是讓資料要素價值充分釋放的底層支撐。
在這樣的背景下,隱私計算技術的價值逐漸凸顯,成為了學界和業界關注的焦點。從概念誕生之日起,隱私計算用了近 40 年從一門前沿理論,延伸到了產業應用之中。但隱私計算能否成為資料要素流通市場的 “基石技術”,還需要掃清一系列障礙。
資料以密態形式流轉將成為未來的趨勢,傳統的隱私計算技術已經不能滿足新形勢的要求。一方面是傳統隱私計算主要關注多方合作場景下的計算安全,缺乏整體性的安全視角,無法滿足資料大規模流透過程中新的場景和角色引入帶來的額外風險(如運維者風險,加工者風險),其次需要針對不同安全等級的資料採用不同安全分級的技術方案,才能最大程度降低隱私計算的落地成本,因此推動行業標準化變得尤為重要。
在 2024 年世界人工智慧大會上,產學研屆帶來了全新的探索和實踐。7 月 5 日,圍繞「隱私計算產品通用安全分級」和「個人資訊匿名化制度」,國內多家產學研機構聯合釋出兩份白皮書,為資料要素流通行業當下普遍遇到的挑戰,提供最新的技術思考和行業實踐。
我們需要怎樣的隱私計算技術標準體系?
隱私計算是一門綜合性的跨學科技術,交叉融合了密碼學、人工智慧、計算機硬體等眾多領域知識,目前已形成多方安全計算、聯邦學習、可信執行環境等技術路線。
推動資料要素可信流通,需要技術研發與標準制定通力配合。在隱私計算技術的各個方向中,仍有大量標準制定工作待完成,產學研屆普遍認為,「資料跨域管控」、「受控匿名化」和「通用安全分級」三個方向值得關注。
資料跨域管控的目的是在資料共享和流動的過程中,確保資料不會被未經授權的實體訪問或篡改,同時遵守相關的法律法規和隱私政策。作為新型生產要素,資料發揮價值的關鍵在於不同主體、不同場景下的資料流通複用,但這一流程通常存在「責任主體不清、利益訴求不一致、能力參差不齊、責任鏈路難追溯」的風險。
受控匿名化通常用於確保資料在使用和分析時,不會洩露個人隱私資訊,同時還保持資料的實用性和準確性。我國的《網路安全法》和《個人資訊保護法》特別設定了「個人資訊匿名化條款」,將匿名化後的個人資料排除在個人資訊保護之外,但法律內涵和實施標準卻有待釐清。事實上,個人資訊匿名化條款存而不用,已經成為資料交易流通和資料要素市場建構的最大瓶頸之一。
此外,在隱私計算中,通用安全分級能幫助確定各類產品最適合的保護措施,從而合理分配安全資源,並確保敏感資料得到適當的保護。當前,雖然針對單一技術路線已經有一些安全分級標準,但是不同技術路線的分級標準完全無法對應,使用者無法對所有的產品進行橫向比較,這些標準也不適用於新出現的技術路線。
在產學研各界的深度合作下,我們已經看到了一些進展。
國內多家產學研機構,在這場大會達成共識
關於「資料跨域管控」問題,我們可以在 2023 年底出爐的一份白皮書中找到答案。
2023 年底,華東政法大學資料法律研究中心、螞蟻集團牽頭髮布《資料跨域管控白皮書》,首次系統闡釋了資料跨域管控的實踐指引與策略,提出藉助密態計算等技術手段,有效管控資料流通利用的風險。
白皮書從技術、法律和管理層面形成了三位一體的資料跨域管控解決方案,包括事前的資料脫敏、加密等資料治理機制,事中針對場景和安全等級界定使用範圍等過程管控機制和事後的審計監督機制。
同時,白皮書還提出了與資料流通風險適配的五項管控技術要求,包括資料來源可確認、資料可用不可見、資料可算不可識、資料使用可界定、資料流通可追溯,並指導如何明確資料流通中各主體責任的可行方案,助力構建中國的可信資料流通參考架構。
關於「受控匿名化」和「通用安全分級」這兩個命題,我們在前不久的 WAIC 大會上也看到了學界與業界的最新共識:
在 2024 世界人工智慧大會上,國內多家產學研機構聯合釋出了《隱私計算產品通用安全分級》和《個人資訊匿名化制度:技術與法律》兩份白皮書。
隱私計算中的安全分級,向來存在多項難點。從產業實踐的經驗來看,不同技術路線、不同產品形態、不同應用場景下的隱私計算產品所面臨的隱私資料洩露風險及安全需求存在巨大差異,在沒有統一安全分級標準的情況下,產品開發方及使用方很難評估和衡量安全與效能之間的平衡。
深圳國家金融科技測評中心技術負責人羅豐曾表示,隱私計算技術在金融行業的應用程度比較領先,但規模化落地還存在技術和業務兩方面挑戰。隱私計算的路線是多樣的,針對不同的應用場景需要有不同的安全和效能之間的平衡。從現有的測評和標準來看,在安全分級之前很難去評估一個產品整體的安全性和效能之間的差異性。而 “技術孤島” 現象客觀存在,技術無法互聯互通可能導致不同的金融機構,會產生產品選型的分歧。此外,預期效益難以估計及投入成本高,導致很多中小型的金融機構不太有意願推動隱私計算應用。
一個能適用於更多技術路線的、具備實操指導意義的通用安全分級方案,是隱私計算規模化落地不可缺少的。
基於上述現狀,螞蟻集團、中國通訊標準化協會大資料技術標準推進委員會、深圳國家金融科技測評中心、清華大學等國內 16 家機構共同撰寫了《隱私計算產品通用安全分級》白皮書。值得一提的是,編寫指導組成員包括中國科學院院士、國際密碼協會會士王小云,浙江大學電腦科學與技術學院院長、區塊鏈與資料安全全國重點實驗室副主任任奎等權威學者。
在這份白皮書中,產學研各方逐一討論隱私計算安全分級面臨的諸多難點,並給出了通用安全分級的設計思路。比如按照攻防效果分級來遮蔽不同技術路線差異,在「可證安全」和「不安全」之間增加一個「抵禦已知攻擊」的分級水位,引入軟體信譽度等更多維度量化「實現安全」,明確所有各類技術特徵與安全分級的對應關係。
中國銀行隱私計算團隊演算法工程師石新蕾曾表示,受參與方資料的影響,不同的需求場景對安全的要求存在差異,透過分級可以為業務提供合適的安全保障水平,達到效能與安全的平衡,同時也能分配合理的計算資源,做到成本控制。其次,透過安全分級可以快速識別風險程度,不同的安全程度可以採取相應級別的監管控制措施來降低安全風險。合理的隱私計算產品安全評估標準與評級體系,有助於更好地理解和評估產品安全性,構建資料流通的信任機制,促進行業規範。
如何在個人隱私保護的基礎上,實現資料價值開發,是產業介面對的另一個棘手挑戰。個人資料是利用價值最高、使用場景最多樣、處理措施最成熟的資料,如何在個人隱私保護的基礎上實現資料價值開發,推動在不同行業、不同機構之間實現可信、安全的資料共享、開放、交易,是產學研屆共同的探索方向。
其中,匿名化技術是個人資料隱私保護的一項重要有效手段。在我國資料基礎設施的規劃與建設過程中,也將個人資訊匿名化相關處理技術與制度規範內容放在了重要位置。而從產業落地的角度,協同推動這一問題解決的關鍵在於建設、擴充出一套融合法律和技術的基礎設施。
為此,基於《網路安全法》、《個人資訊保護法》中設定的「個人資訊匿名化條款」指導,對外經濟貿易大學、大資料技術標準推進委員會和螞蟻集團共同撰寫了《個人資訊匿名化制度:技術與法律(2024)》白皮書。
這是學術與產業界首次聯合從技術與法律雙重維度對個人資訊匿名化問題做系統性梳理與闡釋、探尋可落地技術方案與資料流通解決路徑。
對外經濟貿易大學數字經濟與法律創新研究中心主任許可表示,匿名化制度的存而不用已經成為當前推動資料流通複用、發揮資料要素乘數效應的重大障礙之一。
當前,個人資訊匿名化面臨著三重困境:企業既擔心匿名化措施難以達到法律要求而無效,又擔心標準過高使匿名化資訊喪失利用價值;監管機構擔心匿名化成為個人資訊處理者規避監管的工具;使用者擔心匿名化是個人資訊處理者虛假的承諾。為破解困境,就必須從單一的匿名化法律視角轉向複合的 “資料基礎設施” 的路徑。作為資料要素市場的基礎架構,資料基礎設施是面向社會的一體化資料匯聚、處理、流通、應用、運營、安全保障服務的新型基礎設施,是覆蓋硬體、軟體、開源協議、標準規範、機制設計等在內的有機整體。基於此,匿名化條款可以擴充為一套融合法律和技術的基礎設施,從而推動在不同行業、不同機構之間實現可信、安全的資料共享、開放、交易。
據此,個人資訊匿名化制度採用 “事前推定匿名” 與 “事後判定匿名” 相結合的設計。事前 “推定匿名 “透過匿名化技術方案來完成,而事後 “判斷匿名” 方式透過解釋法律和完善責任來完成。在各種匿名化技術方案中,白皮書特別提出了 “受控匿名化 “措施。針對攻擊者獲取金鑰後經假名化處理的直接識別符號仍然有可能被還原的問題,可以讓直接識別符號采用假名化處理,假名化後的結果僅在受控空間使用,確保不會與金鑰關聯。針對開放空間中經匿名化技術處理的屬性資訊仍然可能被關聯到個人身份的問題,白皮書提出讓屬性資訊僅在受控空間使用,確保不會與開放空間資料關聯。
從「技術標準」到「規模化落地」
在新的技術變革趨勢下,構建全新的標準,最終是為了降低新技術在規模化落地時難度和企業成本,讓更多市場主體也享受到技術帶來的紅利。
螞蟻集團副總裁兼首席技術安全官韋韜曾表示,資料要素的跨域流通,面臨 “責任主體不清,利益訴求不一致,能力參差不齊,責任鏈路難追溯” 等嚴峻風險,導致傳統資料安全的信任基石遭到破壞,因此,資料要素的流通亟需構建全新的技術要求標準與技術方法體系。
面向未來,推動資料要素價值流通是一個系統性工程,需要社會各界協力合作,共同構建新的技術標準體系,讓資料價值的流向千行百業。