“一般資料保護條例”對資料分析及挖掘的影響

中國人工智慧開放創新平臺發表於2019-06-24

簡述

本文試圖解釋新歐洲法規對個人資料保護的作用及影響,透過分析與過去使用的相關法規的主要差異,以及資料分析領域的創新方式,解釋大資料領域給資料保護政策帶來的結構性影響,以及對企業和個人的一些啟示。

1. 通用資料保護條例(以下簡稱GDPR):與2003年頒佈的隱私條例的區別

通用資料保護條例2016/679(GDPR)是歐洲有關資料保護的立法。該條例於2016年5月4日在歐盟官方公報上釋出,於2016年5月24日生效,但考慮到實際情況,正式實施於兩年後開始,即從2018年5月25日開始。

該法規旨在協調國際上電子資料傳輸間的保護與監管。歐洲立法者認識到,個人資料隱私保護是歐盟公民的一項基本權利,因此認為,應當同等對待所有公民的個人資料隱私,並透過立法的形式輔助相關智慧科技方式,消除國際資料傳輸中存在的待遇差異。

GDPR部分修改並整合了先前在“196/2003關於保護個人資料守則”第1號法令中規定的條款。歐盟資料保護局已公佈了GDPR的主要創新和變化。新條例引入的主要變化總結如下:

•引入了“ Privacy by Design”和“ Privacy by Default”原則,這意味著一切資料相關的行為必須從一開始就按照立法者制定的規則進行保護,從源頭上開始進行資料保護;

•適用的法律是相關資料主體的法律。因此,即使資料所有者位於歐盟以外,也將受到歐洲資料保護立法的約束;

•同意個人資料被使用的前提應該是自由,具體和知情的,使用的訴求和方式也必須是明確的。只有在每次單獨使用個人資料時,使用者的許可都在不含歧義的方式授權時,它才有效;

•引入了“問責制”原則,即必須記錄所有資料使用進行的處理,保證問題可溯源;

•建立了“資料活動登記冊”,該檔案記錄資料所有者、資料處理者之間有關個人資料傳播、使用的所有活動;

•對於已經出現的違規行為(資料洩露),受損方有權利將受損情況傳達給擔保機構,機構不得有任何不合理的延遲,並且在可能的情況下,在其知曉之日起72小時內,排除可能會由於侵犯主體個人資料對其權利和自由構成風險的一切因素;

•為資料所有主體引入了新的權利,例如:資料的可攜帶性,被遺忘權;

•引入了資料保護官(DPO)的概念,他們是針對某些特殊情況下的專業資料控制者,他們幫助建立資料使用機構與擔保人的聯絡,該工作對相關的技術有極高的要求。

上述論證中,在資料探勘和處理方面的創新被認為是最明顯和最具影響力的,將在以下段落中進一步討論。

 2. 大資料:技術與未來展望

近年來,隨著社交網路和物聯網(IoT)的發展與普及,資料分析技術應用在生活與工作的方方面面,同時也朝著越來越龐雜的方向發展。由此所產生的資料多種多樣,需要先進的技術和強大的計算能力來支援這些大型檔案的處理。如果分析得當,大量可用資料將成為公司和機構的寶貴資訊資源。事實上,透過資料分析,生產商甚至可以重建消費者的消費習慣,監控消費者的動作或定義偏好。換句話說,大資料智慧化可以幫助評估我們生活的多方面特徵。

由此可知,挖掘及使用資料(例如用於商業目的)和侵犯資料所有者隱私之間的關係微妙而又脆弱,所需的利弊權衡也是顯而易見的。當然,在歐洲,這方面的立法思考由來已久,立法者一直認為,保護個人隱私是一項應被重視的基本事項。例如,“里斯本條約”將保護個人資料的權利帶回了個人的基本權利範圍。而我們常聽的GDPR,正是為了滿足這一需求而建立的。

而GDPR又會對大資料及人工智慧的發展與應用產生什麼影響?我們首先要明確,大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。而大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。通常,資料分析過程屬於資料驅動型別,即由資料本身指導分析過程,因此沒有固定的方法,但它們根據挖掘的資料而有所不同。例如,可以在從描述性分析開始的研究的邏輯過程中,尋求一種標準化形式,這對於理解潛在現象和消除異常值是有用的。通常,資料收集的下一步是建立預測模型,以便分析和預測當前現象的未來發展情景。到目前為止,描述的步驟可以被認為是統計分析的經典步驟。但是,使用現代資料分析工具處理異構大資料(結構化或非結構化)能夠組合其他功能,這種稱為“Prescriptive Analysis”(常規性分析),使我們能夠理解建立和定義資訊過程。資料分析過程的最後一步為“ Automated Analytics”(自主分析),即基於從先前步驟獲得的輸出建立邏輯,生成特定模型或建立由分析過程產生的具體規則,形成自主資料學習模式,達到智慧化自主分析的結果。

關於個人資料保護的最新立法,在資料安全性和可追溯性方面提出了若干問題。其中包括必須讓利害關係方瞭解處理其資料的目的,如果他/她決定不同意或授權撤銷,資料使用方必須保證消除與他相關的所有資料。這樣的規定導致資料使用方需要對資料使用的時間軸進行管理,一旦完成資料採集和使用,甚至不能簡單地刪除了之:許多公司不得不重新設計其系統架構,從而維持高成本的資料管理和維護工作。

由於轉碼錶的整合和非關聯式資料庫的實施,資料的假名化也被證明不易於實施。

根據最新立法中第11條在57款的概述,透過第三方加入的方式,或許可以在資料分析和資料保護之間找到更溫和的過渡,即允許持有者使用個人資料實施大資料和資料分析活動,無需任何識別或處理(由第三方加工或過濾),消除對利益相關方的任何可能涉及身份的提及,因此(理論上)不會觸犯相關方的權利。

很明顯,該標準可以允許開發基於共同和客觀特徵的聚合資料分析技術。換句話說,該標準可以將用於商業目的的分析技術改造成更接近於用於科學目的的典型資料分析的操作方法。

3. 對資料分析演變的影響(基於EU-US資料保護協議體系

新歐洲個人資料保護條例第45條規定第二點規定:“當需要透過控制個人資料維護公共利益或履行為保護公共利益所需的義務,可以進行對個人資料進行處理,但該權力的行使必須依據國際公認準則或是歐盟成員國內的法律。上述條款有助於歐盟與其他國家之間達成協議,以保護在海外設有辦事處的公司的商業運作,以便這些公司處理或儲存歐盟公民的個人資料,同時也為歐盟的監管提供便利。

同時,歐盟委員會於2016年7月12日透過了一項關於名為的Privacy Shield的決定,該協議規定了歐盟與美國之間的資料傳輸。該協議保護了歐盟成員國及成員的基本權利,允許其個人資料被轉移到美國,併為跨大西洋進行資料傳輸的公司制定了明確的規則。

該協議規定:

l 對傳輸資料的公司有義務嚴格遵守保護資料隱私協議;

l 對美國政府獲取資料制定了嚴格的安全措施;

l 具體規定了資料保護的工具(包括傳輸,儲存和使用);

l 對監督其實施的協議進行聯合年度審查。

GDPR的實施,對該部門的資料分析產生了重大影響。之前被遺忘的權利被重新賦予了意義,使運營公司能夠預先知曉個人資料管理邏輯。例如,有關方可以要求對取消、加密或停止追蹤當前資料及資料所有人,有權利清除資料或糾正資料中涉及個人隱私領域的保護功能,其儲存在搜尋引擎和社交網路中的資料需要保證以上訴求的視覺化,以確保資料可以得到保護和監控,若個人資料已經被公佈,需要保證資料能夠被清除,且該過程合法化,預防再次被獲得或被公佈。這些新問題直接影響到新安全解決方案的設計,比如非關聯式資料庫的開發或資料匿名化技術,這是一種旨在防止識別資料主體的處理方法。當然,匿名提供的資料不屬於資料保護立法的適用範圍。從實際的角度來看,這個目標可以透過應用不同的技術來實現,這些技術可以基本上分為兩個系列:

1. 隨機化,即修改資料的真實程度,以消除同一人在不同資料型別中存在的相關性。屬於這一類的技術類似資料置換,即增加統計噪聲和差別隱私;

2. 泛化代表了第二類匿名化技術,包括透過修改各自的規模或數量級來稀釋有關人員的屬性。例如,考慮年齡範圍的指示而不是主體的精確年齡,甚至是隻大體區域而不是居住城市等等。

隨著以上技術的發展,的確可以大大降低相關方的隱私風險,在過去幾年中不難發現,基於匿名資料的彙總處理,將資料用於社交效用目的的服務的倍增。實際上,如果一方面匿名資料不允許所表示的特徵被追溯到感興趣的主題,那我們可以認為,資料本身的資訊所反映的內容也沒有受到影響。

4. GDPR第11條:新條例是大資料發展的挑戰還是方向?

GDPR第11條規定:“如果控制者不需要或者不再需要認證其所掌控的個人資料的資料主體,那麼若僅僅根據本章程的要求和規定,控制者就沒有義務儲存、獲取或者處理額外的資訊來認證資料主體。如果有本條第一款所提到的情況,那麼在可能的情況下,控制者應當告知資料主體,說明自己並無對資料主體進行認證的職責。只有在資料主體出於行使自身權利需要,而且提供額外的身份證明資訊的情況下,第15條至第20條才能得以適用。”

第11條引起了解釋性問題,而這些問題因第57款而變得更加尖銳。事實上,根據第57款中定義的內容:“如果控制人處理的個人資料不允許控制人識別自然人,則資料管理員無義務獲取額外資訊,以識別資料主體,其唯一目的是為了遵守任何規定。但是,管理員不應拒絕接受資料主體提供的其他資訊,以支援其行使其權利。識別應包括資料主體的數字識別,例如透過認證機制,例如相同的憑證,由資料主體用於登入資料控制器提供的線上服務。”似乎立法者注意到,當所有者獲取個人資料的情況時,或許是因為他們提到已識別或可識別的人,但他們沒有興趣收集和使用,甚至允許這種識別的元素,因為他希望它們識別方式付諸實施。在剛剛描述的案例中,所有者似乎無法通知感興趣的各方,因為他沒有有用的資訊來識別他們。然而,即使在這個假設中,持有者也不能拒絕提供那些能夠傳達識別所需要素的人。

換句話說,所有者可以在不獲取資料的識別元素的情況下獲取資料。對於上述情況,我們不能談論假名化和匿名化,因為不排除感興趣方向所有者提供識別符號以刪除其個人資料的可能性。

5. GDPR的後續影響及企業解決方案

最為重要的約束包括兩個方面: 

  其一,根據 GDPR 的要求,處理個人資料必須要有合法理由和方式,而對於"合法"的定義非常嚴苛。 

  除了拓寬“個人資料”的範圍、並將高度保護個人隱私的「資料可攜權」和「被遺忘權」明確寫入法條之外,GDPR還強調了資料保護要由「屬地」向「屬人」轉變。 

  這意味著,條例的適用範圍不再侷限於歐盟境內,任何企業只要向歐盟市場提供商品服務,收集或處理個人資料,都受到管轄。無疑,這對從事資料收集和處理的企業及其產業鏈,都提出了極高的要求。 

  其二,GDPR 中明確定義了資料主體的權利,在為個人有效行使權利提供法律保障的同時,也對企業處理和使用資料提出了苛刻的要求。 

  這意味著,那些拿客戶資料打標籤做畫像的創業,將被要求公開其基本演算法邏輯和運算結果。除此之外,目前熱門的大資料分析公司,因個人資產保護範圍更廣,想運用 AI 工具做資料分析的運作空間,也將大大縮水。為此,來自劍橋和倫敦大學學院的創業團隊 MediaGamm 則給出一條不錯的思路模型。這是一家線上使用者行為預測公司,基於特定的演算法對廣告技術公司的競價演算法進行最佳化,幫助廣告主深度挖掘媒體資料,進而最佳化廣告投放方案。MediaGamm CEO Rael Cline 在接受採訪時表示,“我們必須做出改變以確保能遵守 GDPR,其中包括限制我們持有授權資料的時間,以及確保在客戶要求刪除特定記錄時能夠應答。”Rael Cline 還也提到了應用Look-a-like相似人群擴充套件的方式來提升使用者精度,與此同時,降低對於使用者基數的要求。這和當下提倡的小規模資料模型很相似。

例如,線上廣告行業中,隨著同意(企業新隱私條款)的使用者數量的減少,可以應用人工智慧來對這些已同意的使用者的行為進行建模,然後根據共享屬性找到相似的使用者。

在雲服務層面,雲端計算倡導多層次連線和互用組合的理念與 GDPR “有跡可循”的要求存在著不可調和的矛盾。GDPR 對資料的控制者和資料的處理者都提出了同樣的要求,共同承擔起資料安全保護的責任,但這同時涉及到雲服務的提供商和雲端計算的客戶兩個環節的權益。在雲服務的基礎設施服務、平臺、應用三個層級間,資料的流通和空間的共享等複雜多執行緒問題究竟該取得哪些人的同意還很難說清楚。

  更多公司機構指出,歐盟的 GDPR 主要用來限制個人資料使用,卻沒有建立一套規則協助重度使用資料的公司運作。

就當下而言,最為重要的是還是為使用者爭取到最基本的刪除權、知情權等。例如,阿里雲表示,其產品規劃中遵從預設隱私設計(Privacy by Design)規範,已提供帳號刪除功能,全球客戶可以自助操作完成。所有新發表的雲產品上線之前,也都透過安全與隱私設計的雙重評估。同時,微軟透露,已經為 GDPR 專案投入 1600 多名工程師,他們將為全球客戶提供正在為歐洲建設的符合 GDPR 的工具,微軟的客戶可以檢視、刪除和移動他們的個人資料。

6. GDPR思考與小結

GDPR對普通民眾有何影響?對於歐盟公民而言,無疑是大好訊息,他們的資料從此將處於妥善的保護之中,而且對自己的資料還有主動權,可以選擇被遺忘或者遷移等。

對於非歐盟使用者而言,也能享受到一些紅利。有很多大公司藉此次 GDPR 的契機,將資料保護政策擴充套件到全球使用者,因此,很多非歐盟使用者也能享受到一定程度的保護。但是,他們獲得的相關權利並沒有法律的保護。就算遇到違規情況,非歐盟使用者也無法申訴。

對於國內公民而言,情況則有些複雜。某互聯公司的歐洲執行官曾匿名錶示:“中國的使用者如果看到自己的資料能換來某些利益,他們都不會介意分享自己的資訊。哪怕是朋友圈那種砍價或者點贊抽獎的蠅頭小利都會讓他們趨之若鶩。”

這番話不禁讓人為國內使用者感到悲哀。一方面,企業不尊重使用者隱私保護,很多人無可奈何;另一方面,使用者自己也沒有隱私保護意識。兩個方面互相作用,造成國內嚴峻的隱私保護現狀。

也許此次 GDPR 正式實施之後,能展現國內外關於資料保護在政策方面、意識方面以及實施層面的區別,進而引起一部分人的重視。這也不失為 GDPR 對全球安全環境的正面作用了。在全球化的今天,任何涉足海外的企業,都應該意識到GDPR的重要性,甚至在未來,越來越多的國家也會仿照GDPR頒佈本國的個人資料隱私保護條例,那麼,企業如何做到未雨綢繆、對資料進行合規保護?對此,我們提出以下建議:

1. 對企業目前所管理的個人資料進行全面的風險評估;

2. 評估和整理目前企業資料有多少是敏感資料,以及有關敏感資料的來源,並嚴格限定敏感資料的生命週期,如果企業不需要儲存敏感資料,可以透過合理的形式進行清除;

3. 資料可溯源,確保資料供應鏈的安全,與企業發生資訊交換的所有環節必須合規並有據可查;

4. 制定完善的措施和響應計劃,以及制定符合GDPR法規的資料安全流程;

5. 進行全企業宣講,並重新評估企業現有的資料安全、資料保護/保留、以及資料訪問技術,確保資料治理計劃可行有效。

參考文獻

1. https://www.garanteprivacy.it

2. https://ec.europa.eu

3. The EU General Data Protection Regulation: How will it impact the regulation of research biobanks? Setting the legal frame in the Mediterranean and Eastern European area. Simone Penasa, Iñigo de Miguel Beriain, Carla Barbosa, Anna Białek, Theodora Chortara, André Dias Pereira, Pilar Nicolás Jiménez, Tomasz Sroka, Marta Tomasi, 04.2018. 

4. An Empirical Study of Reserve Price Optimization in Real-Time Bidding, Shuai Yuan, Jun Wang, Bowei Chen, Peter Mason, 2014. 

5. Learning Continuous User Representations through Hybrid Filtering with doc2vec, Simon Stiebellehner, Jun Wang, Shuai Yuan, 2014. 

作者簡介:

Carlo Daroda

義大利知名諮詢公司Prometeia企業合夥人,財富與資產管理領域的首席專家。畢業於羅馬第一大學經濟與商務專業,並先後就職於KPMG, GENERALI及Deloitte,於2008年加入Prometeia,主要負責財富管理領域的諮詢和設計專案,以及相關軟體解決方案的實施。

Leonardo Cicala

滿分畢業於巴里大學的金融市場經濟學專業。作為IPE商學院全額獎學金得主,獲得高階金融和風險管理碩士學位,並在義大利-美國基金會的贊助下,同時在讀“商務與義大利製造”碩士學位。目前就職於義大利諮詢公司Prometeia,負責義大利郵政金融管理解決方案的專案工作。

相關文章