淺議個人資料開發利用新正規化

大資料文摘發表於2022-01-04

淺議個人資料開發利用新正規化
大資料文摘授權轉載自資料派THU
作者:張家林

在所有資料資產型別中,個人資料的開發利用潛在價值巨大。個人資料在過去幾十年裡,已經得到前所未有的開發和利用,推動了經濟增長和社會發展。但與此同時,也逐漸引發越來越凸出的經濟、社會和倫理道德問題。


App應用服務包羅永珍,幾乎涵蓋了個人生活、工作和學習等方方面面。個人在由這些應用服務營造出來的數字空間中活動,自然而又輕鬆的產生了大量的個人資料,這些來自不同資料出生地(DBP)[i]、海量的、異構的資料,構成了個人資料空間(PersonalData Space)。
 
淺議個人資料開發利用新正規化

個人資料開發利用的舊正規化是App應用服務商向個人提供服務,個人向App應用服務商提供或生產個人資料。App應用服務商通過處理、交易個人資料,從而獲得直接或間接收益。

在過去幾十年的網際網路發展過程中,這種正規化無疑處於主導地位。正規化轉換的核心驅動因素是對資料權利的認知提升,以及公眾和政府對隱私保護[ii]和安全的關切[iii]。舊正規化下,個人對其個人資料空間的治理、管控和感知等各個方面,都非常欠缺。

自2016年歐盟推出GDPR以來,各個國家都在加快圍繞個人資料保護的立法議程。隨著我國《個人資訊保護法》、《資料安全法》等重要法律法規的出臺,標誌著個人資料的開發利用從舊的正規化轉換到一個新正規化。

新正規化正處於形成和發展中,尚未形成全球共識。歐盟提出了“以人為本的個人資料開發利用”的mydata正規化[iv]。美國尚未出臺類似GDPR的專門的個人資料保護的法律,目前大多數州都是基於消費者保護建立的法律體系,只有個別州出臺了法律[v]。概括來講,美國倡導的是“基於規則、協議和市場”的open data正規化。其他國家基於各自的法律、文化以及數字基礎設施的條件,也都在積極探索適合本國個人資料開發利用的新正規化。

新正規化所遵循的一個核心原則是:對個人資料的開發利用,需要始終兼顧開放、隱私和安全,並在這三者之間形成的“不可能三角”中,針對不同的場景(context)尋求最優解決方案。
 
淺議個人資料開發利用新正規化

本文首先對新正規化演化做簡要的回顧,然後從微觀的視角,通過建立一個個人資料空間的分析模型,來初步研究新正規化下的個人資料開發利用前景和展望。
 

演化中的個人資料開發利用新正規化


過去很長一段時期裡,個人資料空間中的原始資料分佈在眾多的App應用服務商手中。大多數情況下,個人對這些原始資料並沒有控制權,App應用服務商是資料控制者。資料的流通完全由資料控制者決定。實證研究指出,不合理的、不審慎的個人資料開放是導致隱私洩露和安全擔憂的根源[vi]。

舊正規化的缺陷不僅是隻考慮開發利用,忽略和忽視個人隱私保護,而且價值分配也不合理。舊正規化下,個人資料的開發利用價值絕大部分都分配給了資料控制者和使用者,個人所得寥寥。而且,在舊正規化下,網路效應形成的資料壟斷,對個人、經濟和社會的負面影響也日益顯著。

因此,個人資料的開發利用新正規化,需要在開放、安全和隱私這個不可能三角框架下尋求答案。

“mydata”[vii]提出了“以人為本的個人資料使用新正規化”。這個新正規化認為“個人應被賦予足夠的權利和能力,以管理個人的私人生活。並儘可能的讓個人擁有確實可行的工具、方法,來理解和有效地控制誰可以訪問其個人資料,以及這些私有資料的如何使用和分享的方式。”

“mydata“將隱私、資料安全和資料最小化原則,作為個人資料開發利用的實踐標準。強調了讓個人理解隱私政策,鼓勵應用服務商採取激勵機制,啟用個人資料價值的同時,“mydata”倡導資料開發利用的透明度、可解釋性。即,只有個人能夠明確的理解個人資料為什麼、怎麼、以及多久被使用,才有能力來授予、拒絕或撤銷資料的開發利用。

“mydata”是基於「信任三角」[viii]模型構建的正規化。示意圖如下:

淺議個人資料開發利用新正規化

個人資料運營商(Operator)讓個人可以安全地訪問、管理和使用自己的個人資料,以及管控從資料來源(DataSource)和資料使用服務(Data Using Service)之間的資料流動。個人可以擔任自己個人資料運營商。個人資料運營商本身不能使用這些資料,但能讓本系統中不同角色相互連線和安全的共享資料。

“mydata”最早是一項“個人資訊管理”的倡議,在GDPR之後,逐漸演化為一種新正規化。自2017年正式運營以來,取得非常不錯的成就。最新的案例是韓國政府就採用了“mydata”正規化[ix],給28家金融機構發放個人資料運營商牌照。

美國尚未出臺專門的個人資料保護聯邦法律[x]。但消費者保護方面的一系列法律體系比較完善,其中有涉及隱私、個人資訊權保護的條款。有三個州最近出臺了專門的個人資料隱私保護方面的法律。

淺議個人資料開發利用新正規化

概括而言,美國的個人資料開發利用是“open data”正規化。強調基於規則、協議和市場的開放、自由流動,鼓勵個人資料市場。基於“open data”正規化,美國已經形成了每年大約數千億美元交易額的資料市場[xi]。市場結構主要是基於B-B模式的,即資料的流通主要是由資料控制者決定;資料安全和隱私保護等,是基於資料控制者自身能力、技術水平和規範決定。例如,Amzon建立了datamarketplace制度和規範。Apple定義了整個生態的隱私和安全標準等。

限於篇幅,本文不對這兩種正規化的優缺點進行詳細的比較,下面的示意圖形象了展示了它們之間顯著的特徵差異。
 
淺議個人資料開發利用新正規化
淺議個人資料開發利用新正規化


整體而言,無論是mydata,還是opendata,其所主張的核心理念是,在個人隱私、安全充分保障的前提下,最大限度的開發利用個人資料。其背後的核心邏輯是一致的,即個人資料蘊含巨大的經濟、社會價值。

但在具體如何實現個人隱私保護、以及程度、範圍等方面存在不同的側重點。其中幾個關鍵原則,例如“告知-同意”,“最小化”等原則存在較大差異。
 

個人資料空間及其結構


“個人資料空間”(peronsal dataspace)是GDPR之後逐漸發展起來的概念。主要目的是確定個人資料的範圍和邊界。由於尚未形成關於個人資料保護的國際公約,因此,各個國家的對個人資料空間的範圍和邊界的界定存在一定的差異。

在中國,按照《個人資訊保護法》和《網路資料安全法》,擬定的資料分類分級的規範[xii],將個人資料分類為16個一級類別,22個二級類別。安全標準分級從低到高為1至5級。其中,明確規定了個人敏感資訊的安全標準分級不低於4級。

淺議個人資料開發利用新正規化

於此同時,《個人資訊保安規範 - GB/T 35273》對個人資料從收集、儲存、共享、使用、轉讓、委託處理等各個環節提出了相應要求。

淺議個人資料開發利用新正規化

依據上述法律法規以及相關規範,構建中國的個人資料空間的一個「結構模型」如下:這個結構模型由一個身份ID(Identity)、一個包含五個層級的資料核(PDC:Personal DataCore)和一個資料表示層(PDP: Personal DataPresentations)構成。示意圖如下:

淺議個人資料開發利用新正規化

身份ID標識這個資料空間的主體身份。

資料核中包括三大類個人資料:{個人非敏感資訊,個人敏感資訊,個人祕密},以及按照分級標準設定的4個分級。其中個人非敏感資訊、個人敏感資訊按照有關法律和規範定義;個人祕密則指不可訪問、不能利用以及其他限制任何外部開發利用的個人資訊的統稱。

資料核包括了個人資料的原始資料,以及描述這些原始資料的metadata。一般的,這些metadata描述了對應的原始資料在哪“出生”,由誰出生的等資訊。這些metadata的核心目標是確保資料核中的原始資料是可追溯、可驗證的可信資料(TrustedData)。

考慮個性化需求、隱私保護、以及權利設定等差異化因素,當外部應用需要訪問資料核的資料時,個人可以針對不同的應用,設定不同的策略。

例如,Alice對其消費資料設定不同的策略:如對提供消費信貸的銀行,她可以設定完全使用;對電商或廣告商,她則設定為特定期限、特種商品的消費資料可以使用。

這些策略可以看作是一個對映函式(表示類),將資料核的資料對映為某種形態後給外部使用。由於存在很多的策略,所有這些策略構成的集合,就用表示層來描述。外部不能直接訪問資料核的資料,而都需要通過表示層來獲得資料核中資料的某種形式的一種表示。

由此,對任意一個人(A)的資料空間淺議個人資料開發利用新正規化淺議個人資料開發利用新正規化的資料核包括三個大類,4個等級的資料淺議個人資料開發利用新正規化,其中p表示類別,q表示等級;以及在表示層中數量不等的表示類淺議個人資料開發利用新正規化。外部應用使用的個人資料資產淺議個人資料開發利用新正規化是資料核元素的一種表示,即淺議個人資料開發利用新正規化

例如,對於非敏感資訊,則可以認為淺議個人資料開發利用新正規化;而對於需要隱私計算後,才能使用的資料,則淺議個人資料開發利用新正規化,這裡淺議個人資料開發利用新正規化為某種隱私演算法。

一個示例如下:
 
淺議個人資料開發利用新正規化

示意圖表示App1使用的是任何類別,等級為1的資料;App2則聯合使用任何類別,但等級分別為1和4級的資料;Appi使用任何類別,等級為3的資料,其中,由於安全等級設定,App2和Appi都無法直接使用資料,而是採用了隱私計算等演算法,間接的使用資料。

例如,Alice的交易對手Bob,想知道Alice的賬戶是否有足夠的餘額支付他們之間的交易。但Alice處於隱私保護目的,並不想給Bob看她的銀行存款餘額。那麼Alice就可以選擇一個隱私計算的演算法來表示她的銀行存款餘額。這個表示演算法根據Bob設定的金額,表示出Alice的餘額是否大於或小於這個金額。

由於個人資料蘊含豐富的資訊,高階的AI演算法能夠通過關聯不同類別的資料,推理或預測個人的一些深度隱私或祕密。

例如,通過對Alice的銀行餘額資料和交易的長時間序列,關聯其它的一些資料,就不僅能推測Alice目前有“多少錢”,還可以推測Alice“怎麼掙錢”,以及未來是否還能“掙到錢”的隱私和祕密。

可能大多數人很難想象,當你戴了一個眼球追蹤裝置的時候,追蹤裝置採集到眼球的資料都是一些諸如眼球運動引數、機能的一些“常規”、完全可以開放的資料。但採用高階的演算法,通過分析這些眼球運動的資料,也能推斷出非常多的關於個人的敏感資訊[xiii]。

淺議個人資料開發利用新正規化

上圖例項中,左邊的資料是眼球跟蹤裝置直接採集的眼球運動的常規資料。右邊的年齡、性別、健康、生物資訊等個人敏感資訊,都是通過AI演算法預測、推斷出來的。如果跟蹤的時間足夠長,這些推斷的準確性就非常高。

因此,處於保護隱私和安全的考慮,有必要在表示層,對這類演算法進行感知、限制,採取的方式就是,限制對某些資料的聯合建模或關聯分析,以阻止特定演算法洞察個人隱私和祕密的行為。

例如,某個App想使用淺議個人資料開發利用新正規化資料,經過稽核淺議個人資料開發利用新正規化演算法安全,則可以表示。但如果App想聯合使用淺議個人資料開發利用新正規化資料,則表示層識別到這種情況,設定了特別的阻止表示類淺議個人資料開發利用新正規化,限制外部任何應用聯合使用這兩個資料。

淺議個人資料開發利用新正規化

更為複雜的情形是,App應用將個人資料空間中的資料關聯到外部資料,從而進行潛在的挖掘和洞察,在此情況下,表示層會事前要求App提出使用資料的目的以及說明。並可以採取必要的措施,進行事後稽核和檢驗。

表示層具體實現的方案有很多種。一種可行的方案是,表示層用區塊鏈來構建,如此,策略、許可權設定等就都可以用智慧合約來表達。使用一個策略,就是呼叫一個合約,這樣可以大大提高互操作性和標準化。與此同時,也能很好的記錄、追蹤和存證。

根據上述模型,一個App應用訪問Alice個人資料空間的過程就可以簡單的描述如下:

【初始化過程[xiv]】我們假設Alice已經從不同的資料出生地,運用資料複製權利/可攜帶權,歸集自己的個人資料、並儲存在分散式的PDS(個人資料儲存)上。除此之外,Alice也完成了對資料空間中的原始資料的訪問/使用許可權、策略進行設定,並用智慧合約的方式表達出來。如,哪些資料可以使用,哪些絕對不行;哪些可以採用隱私計算使用,哪些可以直接用原始資料使用等等。策略設定主要是考慮隱私保護以及限制不良洞察演算法濫用資料關聯等。

1. 當一個App應用提交Alice要使用她的類別為3、4、5類,安全等級為2、4的所有資料,即淺議個人資料開發利用新正規化的請求。
2. Alice的個人資料空間的代理人(agent)收到這個請求後,首先根據許可權、策略設定表,進行審計和評估。
3. 審計和評估後,代理人得出結果:
    3.1 當3、5兩類、等級為4的資料聯合使用,存在隱私風險;因此,拒絕APP對淺議個人資料開發利用新正規化使用;
    3.2 第4類、等級為4的資料,必須採用隱私計算保護;同時如果演算法不合格,則拒絕使用。
4. APP提交了處理淺議個人資料開發利用新正規化資料的演算法g和f,代理人對演算法進行審計或驗證後,通過了。
5. 最終,APP得到的資料和可以使用的演算法是淺議個人資料開發利用新正規化
 
Alice是電商平臺JD、TB的使用者。JD、TB和Alice根據《個人資訊保護法》等法律簽署了新的服務協議。

Alice向JD、TB發出個人資料查詢請求。JD、TB響應請求,告知Alice它們各自採集、儲存和使用了她的哪些個人資料,以及如何使用這些資料的說明。

Alice準備向一家銀行Bank G申請消費貸款。Bank G告知Alice,只要她能提高在JD,TB的過去3年的消費資料,就可以得到受理。

Alice向JD、TB發出個人消費資料的複製請求(資料攜帶權)。JD、TB很快,就將Alice要求的過去三年的個人消費資料傳送給Alice。

Alice是購買和租用了一套自治的個人資料管理系統(PDMS)。這個系統為Alice提高管理自己資料空間的工具,並提供一些基礎的服務(如BaaS區塊鏈、分散式儲存、委託代理等)。

Alice的PDMS接收到從JD、TB上傳來的消費資料,會將其歸類和加密後儲存。PDMS的控制介面會提供很多選項,讓Alice決定訪問這些資料的許可權,以及一些特定的策略。例如,Alice想把採購一些個人私人用品的消費資料(如產品名稱、消費金額等)做隱私保護。

PDMS將上述資料完成設定後。Alice就授權BankG來使用。

Bank G無法直接訪問Alice的資料核,需要通過表示層的區塊鏈合約介面ABI來訪問資料。而這些合約確保按照Alice確定的許可權和策略對外提供資料。

至此,BankG就完成了請求獲取Alice資料的過程。

BankG獲取資料,如何處理資料是基於其與Alice基於消費信貸這一場景的需求。如果超出這個範疇,那裡Alice就可以拒絕。

事實上,Alice很難判斷一個演算法到底是不是遵守“場景一致”原則的,因此,往往需要第三方幫助其進行鑑別。而Bank G可以採取公示或審計的方法,提高其處理個人資料的透明度。

“場景一致”原則[xv],是個人資料開發利用新正規化中引入一個原則。這個原則有助於判斷某個應用演算法是否“越界”,是否“必要”,以及是否存在隱私窺探和非法洞察。

綜上,可以看到,通過合理的構建個人資料空間及其結構,採取適當的技術堆疊,能夠有效的為個人提高資料權利行權和維權的工具和服務。
 

結論


無論是GDPR、還是我國的《個人資訊保護法》都賦予個人對資料諸多權利,因此,每個人都成為個人資料彙集/歸集和管控的樞紐。

並不是所有個人都有能力識別“壞”的演算法、判斷是否可以給予某個應用App許可權。管理好自己的個人資料,絕對不是一件輕鬆的事情。因此,需要創造和開發新的工具和服務,幫助個人不僅有能力行使權利、維護自己的權利,而且也能最大化個人資料的價值。

由於法律賦予的權利,每個人都可以自由的、自治的管理個人資料該如何使用,給誰使用,為什麼使用。每個人都能夠安全地、以自己喜歡的方式來管理自己的個人資料空間。這需要個人不僅擁有適當的工具,而且也需要培訓、知識以及必要的支援,來把個人資料轉換成對自己、社群和社會有益的價值。

要實現上述目標,資料的可攜帶性(dataportability)是基石。個人資料處理者的透明度、可審計性,以及不同資料出生地的控制者之間的互操作性則是必須的保障。

相關報導:

[i]《資料確權淺議》,張家林

[ii]《Property, Privacy, and Personal Data》,PaulM.Schwartz, 2005

[iii]《The Birth Of GDPR: What Is It And WhatYou Need To Know》,Andrew Rossow, 2018

[iv]

[v]https://www.nytimes.com/wirecutter/blog/state-of-privacy-laws-in-us/

[vi] Helen Nissenbaum,Privacy In Context:Technology, Policy, and the Integrity of Social Life

[vii]

[viii]《計算信任淺析》,張家林

[ix]

[x]https://www.nytimes.com/wirecutter/blog/state-of-privacy-laws-in-us/

[xi]《資料資產化前瞻性研究白皮書》,普華永道,2021

[xii]關於對《網路安全標準實踐指南——資料分類分級指引(徵求意見稿)》公開徵求意見的通知信安祕字[2021] 107 號

[xiii]《What Does Your GazeReveal About You? On the Privacy Implications of Eye Tracking》,Jacob Leon Kröger, 2020

[xiv]實際情況會很複雜。

[xv]《何為場景?- 隱私場景理論中場景概念之解析》海倫·尼森鮑姆

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2850489/,如需轉載,請註明出處,否則將追究法律責任。

相關文章