大資料:抓住機遇、儲存價值

美國總統行政辦公室

2014 年 5 月

概述:

“即使大資料技術重塑了我們周圍的世界,今天的發言也將幫助我們持續貫徹自身的價值觀念。”“這份評估報告本質上被認為是一種對大資料作用範圍的調查。在過去的 90 天中,評估小組對學術專家、產業代表、保護個人隱私的倡導者、人權團體、執法者,以及其它政府機構進行了調研。白宮科學與技術政策辦公室(White House Office of Science and Technology Policy)與麻省理工大學、紐約大學、加州伯克利大學聯合組織了三場大學會議。”“在 2014 年,美國國稅局通過一個名為‘Get transcript’的工具將納稅人的資訊資料加以共享,納稅人可以通過它獲得他們自己最近三年的納稅記錄。個人納稅者可以藉此下載過去的納稅申報單,這使得居民進行抵押、學生貸款、商務貸款等活動與填寫納稅表變得更加便捷。”

“儘管醫學技術不斷變化,但健康資料仍然是我們生活中非常私密的部分。在大資料使得較之以往任何時候都更為強大的發現成為可能的同時,重新審視相關資訊被所有醫療保健機構共享後的隱私保密方式也顯得相當重要。醫療保健行業的領導者已經呼籲構建一個更為廣泛的信用框架,使得不同來源、不同隱私保密程度的健康資料得以匯聚。這一框架需要附加《健康保險便利和責任法案》與《反基因歧視法》(“Genetic Information Non-Discrimination Act”, GINDA)中的隱私保護條款,並同時設計標準化資料結構以提高
其跨平臺適應性。 ”

“大資料正在改變世界。但是它並沒有改變美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。這份調查報告旨在鼓勵使用資料以推動社會進步,特別是在市場與現有的機構並未以其他方式來支援這樣的進步的領域,與此同時,我們也需要相應的框架、結構與研究,來幫助保護我們的核心價值觀念。

給總統的一封信

親愛的總統先生:

我們正生活在社會、經濟與技術革命之中。我們如何通訊、交際、度過閒暇時光以及開展業務已經轉移到了網際網路上。網際網路又滲透進入我們的手機,進入蔓延在我們家園和城市中的裝置中,進入推動工業經濟的工廠中。其導致的資料爆炸和挖掘正改變著我們的世界。

今年一月,你要求我們進行為期 90 天的調查,檢驗大資料將如何改變我們生活和工作的方式,改變政府、公民、企業家和消費者之間的關係。這次調查的重點在於公共和私營部門如何在將風險最小化的同時,將大資料的價值最大化。 它也為大資料確定了發展我們的經濟,改善健康和教育以及使我們國家更加安全和節能的機會。雖然大資料毫無疑問地加大了政府權力累積未經核實的事實的可能性, 但它也提供了增強公眾責任、 隱私和權利的方案。如果正確實施, 大資料將成為歷史前進的推動力,幫助我們國家保持長期以來成為我國特點的公民和經濟活力。

大資料技術將變革生活中的每一個領域。 它們使之成為可能的知識發現提出了我們為隱私保護構架的框架如何在大資料生態系統中應用的重大問題。大資料也引發了其他問題。 這個報告的一個重大發現在於,大資料分析有一定可能使長久存在的公民權利保護黯然失色,特別在於個人資訊如何利用於住房、信貸、就業、健康、教育及市場領域上。美國人與資料的關係將擴充套件他們的機會和潛力,而不是縮減。

我們正在建設我們將繼承的未來。 美國比世界上的任何其他國家更適合確保資料革命能夠持續地為個人發展和社會良好效力。我們欣然提交本報告,建議我們如何在保護諸如隱私、公正、自決等基本價值的同時擁抱大資料技術。我們致力於這一倡議和改進。我們今天在這發起的對話將幫助我們在大資料重塑我們周圍世界的同時,堅持我們自身的價值。

目錄

1、大資料與個人

什麼是大資料?
大資料有什麼不同?
證明我們的價值
2、奧巴馬政府在資料開放與隱私保護問題上的發展路徑

奧巴馬政府關於公開資料的舉措
美國隱私法案和國際隱私法框架
3、公共部門的資料管理

大資料與醫療保健服務
對學習的研究:大資料與教育
大資料在國土安全部
在執法過程中貫徹隱私價值觀
大資料技術對隱私法的啟示
4、私營部門的資料管理

大資料對消費者與企業的益處
廣告支撐的生態系統
資料服務業
5、為大資料構建的政策框架

大資料與公民
大資料與顧客
大資料與歧視
大資料與隱私
預測大資料變革的下一篇章
6、結論與建議

保護個人隱私的價值
數字時代負責任的教育創新
大資料與歧視
執法與安全保護
資料公共資源化
1、大資料與個人

什麼是大資料?

自從古代有過第一次計數和農作物產量記錄以來, 資料收集和分析便成為社會功能改進的根本手段。 17、 18 世紀的微積分、概率論和統計學所提供的基礎性工作,為科學家提供了一系列新工具,用來準確預測星辰運動、確定公眾犯罪率、結婚率和自殺率。這些工具常常帶來驚人的進步。在 19 世紀,約翰·斯諾(John Snow)博士運用近代早期的資料科學繪製了倫敦霍亂爆發的“群聚”地圖。霍亂在過去被普遍認為是由“有害”空氣導致的,斯諾通過調查被汙染的公共水井進而確定了“霍亂”的元凶,並同時奠定了疾病細菌理論的基礎。

從資料中擷取洞見以提振經濟行為,這也是美國工業的慣常做法。弗雷德裡克·溫斯洛·泰勒(Frederick Winslow Taylor)在賓夕法尼亞州的米德瓦爾鋼鐵廠採用秒錶和筆記板來分析生產力,這大大增加了車間產量,也鑄就了他的信念,即資料科學可以為生活中每一個方面都帶來革命性影響。

1911 年,泰勒撰寫了《科學管理原理》,以回應西奧多·羅斯福(Theodore Roosevelt)總統有關提升“國家效能”的倡議:

從我們單個人的行動到大型企業的工作,科學管理的基本原理可以應用到一切型別的人類行為中……無論何時,只要正確運用這些原理,必定會產生真正令人驚訝的成果。

今天,資料比以往任何時候都更加深入地與我們的生活交織在一起。我們期待著用資料解決各種問題、改善福利,以及推動經濟繁榮。資料的蒐集、儲存與分析技術不斷提升,這種提升看上去正處於一種無限的向上軌跡之中。它們的加速是因為處理器能力的增強、計算與儲存成本的降低,以及在各類裝置中嵌入感測器的技術的增長。 2011 年,新生成的和複製的資訊量估計超過了 1.8 ZB(澤位元組);而在 2013 年,這一數字估計可達 4 ZB。

什麼是澤位元組(ZB 或 Zettabyte)

一澤位元組等於 21 位元組,或相應的資訊單元。想想看,一個位元組等於文字中的一個字元。 1ZB 相當於儲存 323 兆份列夫·托爾斯泰所著的 1250 頁的《戰爭與和平》所需的容量。6或者想象一下,假定每一個美國人每秒鐘拍一張照片並連續拍 1 個月,所有這些照片儲存進來容量就相當於 1ZB。
世界上每天大約有 5 億張照片上傳或分享,另外每分鐘還有超過 200 小時的視訊上傳、分享。但是,即使是人們自己產生的資訊,即從語音通話、電子郵件、文字到上傳的圖片、視訊、音樂等全方位交流產生的資訊,與每天產生的與他們相關的電子記錄等數字化資訊相比,在數量上都是相形見拙的。

這些趨勢還將持續下去。我們只是處在所謂的“物聯網”(“Internet of Things”)的相當初級的階段。在物聯網中,我們的各種應用裝置、運輸工具以及持續增長的“可穿戴”技術產品將可以彼此交換資訊。技術的進步將促成建立、捕捉、管理與儲存資訊的成本降至2005 年的六分之一。自 2005 年以來,人們在硬體、軟體、人才與服務方面的商業投資增長了近 50%,達到 4 萬億美元。

“物聯網”

“物聯網”這個術語用來描述具有可交換資訊能力的裝置網路。這些裝置通常嵌入了感測器,並通過有線或無線網路連線後進行彼此間的資訊交換。它們可能包括你的溫控器、汽車,甚至是你嚥下去的“小藥片”,醫生可以用它來監控你的腸胃以及消化道的健康狀況。這些連線的裝置通過網際網路傳輸、編制和分析資料。
關於“大資料”有許多種定義,這種差別取決於你是一位電腦科學家,還是一位金融分析師,抑或是一位為風險投資人推銷一個概念的企業家。多數定義都反映了那種不斷增長的捕捉、聚合與處理資料的技術能力,而這個資料集在數量、速率與種類上持續擴大。換言之,“現在,資料可以更快獲取,有著更大的廣度和深度,並且包含了以前做不到的新的觀測和度量型別。”7更確切地說,大資料集是“龐大的、多樣化的、複雜的、縱深的和/或分散式的,它由各類儀器裝置、感測器、網上交易、電子郵件、視訊、點選流,以及現在與未來所有可以利用的其他數字化訊號源產生” 。就大資料而言,真正重要的是它能做什麼。先且不論我們如何把大資料界定為一種技術現象,大資料分析那多元而廣闊的潛在用途將面臨一些關鍵性的問題,即我們的法律、倫理與社會規範在大資料時代是不是有足夠的能力保護個人隱私和其它價值。前所未有的計算能力與持續的改進能力為我們的生活帶來了可能是先前從未預料到的發現、創新與進步。但是,這些能力對於普通消費者來說,多數都是既不可見,也無法得到的,因此, 它們在持有大資料的一方與有意無意地提供著資料的一方之間,形成了一種非對稱的力量。

部分挑戰也在於如何理解大資料發揮作用的許多不同的應用場景。大資料可以被看成一種資產、一種公共資源,或者一種個體身份的表達; 它的應用或許可以驅動未來的美國經濟,也可以是我們所珍視的自由的一種威脅。大資料可能是所有這些事情。就這為期 3 個月的研究而言,評估組並不旨在對大資料的作用做出全面的解答。大資料技術和支撐它的產業都在不斷地創新和變化中。相反,我們的研究集中在探討個人與資料的蒐集、利用方之間那些至關重要的問題。

這份評估報告的範圍

今年 1 月 17 日, 奧巴馬總統在司法部就改革美國訊號情報工作的演講中,責成他的顧問約翰·波德斯塔(John Podesta)就大資料技術正在或將要對經濟、社會與政府行為的範圍內發生的影響做出全面評價。為此,波德斯塔召集了商務部部長佩尼·普利茨克(Penny Pritzker)、能源部部長歐內斯特•莫尼茲(Ernest Moniz)、總統科學顧問約翰·霍爾德倫(John Holdren)、總統經濟學顧問傑弗裡·澤恩斯(Jeffrey Zients),以及其他高階政府官員。總統科學和技術顧問委員會(President’s Council of Advisors for Science & Technology, PCAST)組織了一項平行報告,以評估基礎技術。他們的成果支援了本報告中的許多技術性判斷。

這份評估報告本質上被認為是一種對大資料作用範圍的調查。在過去的 90天中,評估小組對學術專家、產業代表、保護個人隱私的倡導者、人權團體、執法者,以及其它政府機構進行了調研。白宮科學與技術政策辦公室(White House Office of Science andTechnology Policy)與麻省理工大學、紐約大學、加州伯克利大學聯合組織了三場大學會議。白宮科學與技術政策辦公室也發放了“諮詢請求”,就大資料和個人隱私問題尋求公眾意見,並得到了超過 70 起回覆。此外,白宮網站平臺就公眾對於大資料的各類使用及不同型別的大資料技術所持的態度,做了一項粗略的調查。在本報告附錄中,可以看到工作組各項工作的列表。

大資料有什麼不同?

這章首先界定一下大資料真正新穎和不同的是什麼,它得益於總統科學和技術顧問委員會(PCAST)的工作。PCAST 寫作了一份平行而獨立的報告《大資料與個人隱私:一種技術的視角》。

“3V”: 數量(Volume)、類別(Variety)、速度(Velocity)

為了本項研究,評估小組聚焦的是那些數量巨大、類別繁多且高速執行的資料,而傳統的資料採集與分析模式已經難以應對了。我們將其特徵通俗地稱為“3V”。資料採集、儲存與處理成本的下降,連同像感測器、相機、地理位置及其它觀測技術提供的新的資料來源,意味著我們生活在一個資料採集幾乎無處不在的世界中。採集與處理的資料量是空前的。從基於網路的應用、可穿戴技術與先進感測器到監測生命體徵、能源使用狀況與慢跑者跑步速度的監測儀,由此帶來的資料爆炸將推進人們對於高效能運算技術的需求,並推動針對最複雜資料的管理能力的提升。

不僅是資料的數量正在快速增長,它的格式也越發多樣,來源也越發廣泛。就像總統科學和技術顧問委員會的報告中所說的,有些資料是“天生數字化的” (“born digital”),意思是說它就是特別創造出來用於計算機和資料處理系統的。 這些例子存在於電子郵件、網頁瀏覽,或 GPS 定位之中。其它資料是“天生模擬的” (“born analog”),這是說它從物理世界中發散出來,但可以不斷被轉化成數字格式。模擬資料的例子包括手機、相機或攝像裝置錄製的語音或可視資訊,或者還有通過可穿戴裝置監測到的身體活動資料,如心率或排汗量。“資料融合”(“data fusion”)能夠將分散的資料來源整合在一起,隨著這種能力的提升,大資料可以帶來一些遠見卓識。

大資料來源是什麼?

資料的來源與格式,連同其類別與複雜程度,都處於持續增長之中。 部分資料來源如下: 公眾網路;社交媒體; 移動應用程式;聯邦、州和地方記錄與資料庫;聚集商業交易與公共記錄中的個人資料而形成的商業資料庫;地理空間資料;各類調查;通過掃描並藉助光學字元識別轉化而成電子形式的傳統離線文獻。更多具有上網功能的裝置與感測器的出現擴大了從物理實體,包括通過感測器和射頻識別(radio-frequency identification, RFID)晶片採集資料的能力。而個人定位資料則來自 GPS 晶片、移動裝置蜂窩訊號基站的三角測量、無線網路對映,以及個人支付行為。
不僅如此,資料採集與分析的執行速度越來越接近即時時間,這意味對於一個人就其周邊環境或生活所做的決定產生即時的影響而言,大資料分析有著越來越大的潛力。高速資料的例子包括記錄使用者線上與網頁互動活動的點選流資料,即時追蹤定位的移動裝置獲得的 GPS 資料,以及得到廣泛分享的社交媒體資料。客戶與公司希望通過分析這種資料使其即刻獲益的要求越來越高。事實上,如果手機定位應用不能即時準確地確認手機位置,它根本就不會有什麼用處,並且,在確保我們的汽車安全執行的計算機系統中,實時操作就至為關鍵了。

新機會、新挑戰

大資料技術能夠將大量的資料集以從前不可能的方式分析出有價值的東西。的確,部分大資料所能產生的卓見是研究者過去從未敢想過的。但是,有關大資料的技術能力已然達到了成熟與普及的水平,它要求我們思考如何努力在大資料提供的機遇與這些技術所帶來的社會、倫理問題之間做出平衡。

大資料應用的威力與機遇

若使用得當,大資料分析能夠提高經濟生產率,改善客戶與政府服務體驗、挫敗恐怖分子並且拯救生命。例如:

大資料與不斷髮展的“物聯網”使得人們將產業經濟與資訊經濟進行整合成為可能。噴氣式發動機和運貨卡車現在能夠裝配許多感測器以監控上百個資料點,並且在需要維護時自動報警。這就使得整個系統更加扁平化,減少了維護成本,並同時增強了安全性。

醫療保險和醫療補助服務中心(The Centers for Medicare and Medicaid Services, CMS)已經開始在要求支付前用預測分析軟體來標示看似報銷欺詐的憑據。欺詐預防系統有助於實時甄別高風險醫療保健提供者的欺詐、浪費與濫用行為,它已經終止、阻止或確認了 1.15 億美元的欺詐性支付,在該程式上頭一年花的每 1 美元帶來了 3 美元的成本節約。

在阿富汗戰爭最激烈的那幾年,美國國防高階研究計劃局(Defense AdvancedResearch Projects Agency, DARPA)派遣了資料科學家團隊和視覺化技術團隊到戰地。在一個名為 Nexus 7 的計劃中,這些團隊被直接派進作戰部隊,用他們的工具幫助指揮官解決特定的作戰計劃。在其中一個地區,Nexus 7 的工程師將衛星資料和監測儀資料融合, 觀察交通工具是如何在道路網中流動,這使其更容易定位並摧毀簡易爆炸裝置。

有一個大資料研究綜合了通過監測器採集的數百萬個來自新生兒重症監護病房的資料樣本,以確定哪些新生兒有可能感染了潛在的致命性傳染病。通過分析所有資料(不只是醫生在他們的巡視中標記的) ,該專案能夠識別像體溫升高、心率加快這樣的因素,以此作為有可能發生了某種感染的早期預警訊號。這些早期感染訊號並不是經驗豐富、工作細緻的醫生通過傳統方式能夠了解到的。

大資料技術也具有其它極大的前景,它可以用來更好地管理電網間的調配需求、 改進能效、為發展中國家提高農業生產力,以及預測傳染病的傳播等許多其它的應用領域。

大海撈針

現在,計算能力要做到“大海撈針”不僅是可能的,而且依然成為現實。過去,搜尋多個大資料集既需要合理組織資料,也需要提出特定的研究問題,依賴選擇對的查詢以返回正確的結果。大資料分析令資料科學家積聚了海量資料,包括非結構化資料,並且使他們能夠找出異常點與資料模式。在這種發現的模式中,為了找到針,你得有個大海;為了獲得確定的洞見,你需要一定量的資料。而在其中所涉及的巨大資料量內,就隱含了對於個人隱私的關鍵性挑戰。

例如,Broad 研究院的基因研究人員發現,海量的基因資料集在識別遺傳變異對疾病的意義中有著關鍵的作用。在這個研究中,當樣本數量是 3,500 時,和精神分裂症有關的遺傳變異無法檢測出來;當使用 10,000 個樣本時,也只能有細微的識別;但是當樣本達到 35,000 時,統計學上的意義便突然顯示出來。正如一個研究人員所觀察到的一樣,“當達到某個拐點時,一切都變了。”對於更多資料的獲取,尤其是像基因資料等私人敏感的資料,對於研究者來說將會是一個巨大的挑戰,這一情況是由以限制其訪問的隱私法為主的各種因素造成的。

大資料之下的資料叢集與資料的關係可能會出乎人的預料,但同時也很深刻。同時,即使有海量的資料,大資料分析的結果也不一定完美。影像識別並不能識別這個影像是否重要。相關性仍然不等於因果性。利用大資料技術找到的相關性,或許不能為對結果、行為的預測以及其他個人判斷提供恰當的基礎。與一般資料一樣,在大資料中,解釋始終是重要的。

完美個性化的福利和後果

融合大量不同型別的資料並實時處理他們,就有可能在消費者開口之前,就提供給他們正確的資訊、產品或者服務。少量資料能夠被結合在一起,從而創造出某個人的清晰的行為圖譜,進而預測他們的偏好與行為。這些詳細的私人檔案和個性化的經歷在消費者市場上很有用,它能夠向確定的一類人推送產品與服務,他們中的一員可能是一位酷愛編織的專業會計,也可能是一位喜歡恐怖電影的家庭主廚。

不幸的是,“完美的個性化” (“perfect personalization”)也會在定價、服務與機會方面造成微妙的或是不明顯的歧視。例如,一項研究表明,涉及到黑人常用名 (例如,“傑梅因(Jermaine)”)的網路搜尋比涉及到白人常用名(例如,“傑弗裡(Geoffrey)”)的搜尋結果中更容易出現含有“逮捕”意味的廣告。這項研究無法確定為什麼種族偏見的結果會產生,因為在演算法上,廣告顯示的生成是一個基於多變數的綜合決策過程。顯然,不同的群體通過不同的資訊服務所產生的結果,有可能對個人造成真實的傷害,這種傷害可能發生在他們求職、買房甚至只是簡單的搜尋資訊的時候。

還有一處值得關注:大資料技術能夠從意識形態或文化上把人隔離開來,就像泡沫過濾器一樣,有效地防止他們接觸到一些對他們的偏見與假設構成挑戰的資訊。一些公司正在蒐集並處理大量急劇增長的資料,並煞費苦心地挖掘個人資料與他們的喜好。然而,公眾對這些活動的範圍與規模的認知是有限的,消費者是很少有機會來控制這些被蒐集並且反覆使用的資料檔案。

模糊與再識別

資料整合等技術在使大資料分析功能日益強大的同時, 也為對目前個人隱私的保護帶來了嚴峻挑戰。當資料開始連線到個人或裝置時,一些隱私保護技術將設法去除這種連結,或者將個人身份資訊“模糊化”(“de-identify”)——但是一些同樣有效的技術也可以把這些碎片化的連結復原,並重新確定相應的個人或裝置資訊。同樣,整合不同的資料可能會導致一些分析師所說的“馬賽克效應”(“mosaic effect”),即個人身份資訊甚至可以從不包括其個人識別碼的資料庫中得到或者推斷出,只要明確包括其愛好等傾向在內的行為圖譜即可。

許多技術人員認為, 資料的模糊化處理作為保護個人隱私的一種手段, 其作用也只是有限的。19事實上,對資料進行收集與模糊化處理是基於相關公司不恢復資料的承諾與對應的安保措施的基礎上的。對資料進行加密、刪除獨特識別符號、打亂資料使其無法識別個人,或者在其個人資料的控制上給予使用者更多的許可權是目前採用的幾種技術解決方案。但是有目的的模糊化處理可能使資料喪失其實用性與確保其出處及相應責任的能力。此外,它很難預測再識別技術將如何演變以應對看似匿名的資料。這將導致大量的不確定性,個人該怎樣控制他或她的資料?他或她該怎樣反對建立在海量資料之上的決策?

資料的保持

在過去,對於個人資訊的自然控制的儲存技術經常可以保證足夠的隱私。資料可以被摧毀,對話可以被遺忘,記錄可以被消除。但在數字世界,資訊可以被獲取、拷貝、分享、精確的翻譯並且無限期的儲存。從前儲存大量資料的成本巨大,現在這些資料可以儲存在一粒米大小的晶片裡,既簡單又實惠。結果是資料一旦被創造出來,就可以在許多情況下永恆的有效。此外,電子資料經常涉及到複雜多樣的人群,使得個人的控制難以實現。比如,誰是一張照片的擁有者?是照片的拍攝者,還是照片裡表現的人,是第一個郵寄它的人,抑或是郵寄它的地址?這些新科技的發展基本改變了一個人和與他/她相關的資料的關係。

資料自由的分享和複製的確比任何時候都要更多。個人、政府、企業、人際網路、同事、上臺控制私人資料的其他政黨,他們間的特殊責任仍在彼此區分。然而,技術發展的目標是明確的:越來越多的私人資料會產生,並在他人的控制下儲存。保證資料的安全是當務之急。出於這個原因,“公眾-個人合作社的各種模型”(“models for publicprivate cooperation”),例如在 2014 年 2 月成立的行政網路安全結構(Administration’s Cybersecurity Framework),是確保該基礎設施的安全與可調整性的重要部分,而正是這套基礎設施,正在為世界上許許多多的資料庫提供服務。

證明我們的價值

無論大資料所帶來的問題是多麼的嚴重與重要,政府依然會支援相關電子經濟的發展並提供免費的資料流來激發大資料的創造力。科技的進步總是會產生如何權衡我們的隱私與社會價值之間的關係的問題。美國在公共領域內,在國會上,在法庭裡,均遭受過這個的問題所引發的爭議的挑戰。而在歷史長河之中,無論科技如何變化,我們一直堅定地保護憲法賦予公民的權力。

奧巴馬總統上任伊始,政府就號召公眾與私營部門善加利用資料的力量,使其提高生產力,改善生活質量,服務大眾社會。這也就意味著,這項研究並不僅僅涉及大資料科技的可行性,還包括了大資料是如何可能挑戰一般美國人的價值觀與美國當下的法律框架。這份報告集中敘述了聯邦政府如何在大資料科技改變消費者與公民的世界觀的同時,確保我們價值觀的延續與法律的與時俱進。

去年,關於隱私方面的公共爭議主要集中於政府,尤其是在情報機構如何收集、儲存,並應用資料這一方面。 這份報告在很大程度上擱置了由訊號情報領域的大資料使用而引發的問題, 對這一問題的詳細處理可以參加總統在 1 月份釋出的政策指南。相應地,這份調查報告也同樣考慮到了政府通過收集與使用這些大型資料庫給公眾帶來了便利。公眾的信任要求政府合理地執行與工作,並要求較之個人, 政府必須以一個更嚴格的標準來收集與使用個人資訊。正如奧巴馬總統所明確指出的,“對於一個領導者而言,僅僅說‘相信我們,我們不會濫用我們所收集到的資料’是不夠的。”

這份調查報告開闊了我們對於大資料問題的視野, 它將大資料的應用範圍遠遠擴大到情報領域之外。這種新的技術不僅僅只是在考察個人隱私,無論這種隱私是被定義成不被幹涉,或者是掌握某人身份等其他權利。在這份調查報告中,一些影響最為深遠的挑戰主要集中在以下方面:大資料的分析有可能導致新型的不公平待遇,尤其是對於弱勢群體; 也可能產生不透明的決策制定環境,以至於個人自治完全迷失於在一堆無法理解的演算法之中。

這些都不是不能解決的問題,但是它們都需要更加深入與嚴肅的思考。 謹記歷史學家梅爾文•克蘭茲伯格(Melvin Kranzberg)的科技第一定律是非常重要的:“技術既無好壞,亦非中立。” 22科技可以被用來服務群眾,但也可以傷害個人。不管科技多麼先進,美國公眾都保留著一種力量, 即他們能夠通過制定政策與法律來管理新技術的使用, 進而在某種程度上保護基本的價值觀。

大資料正在改變世界。但是它並沒有改變美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。這份調查報告旨在鼓勵使用資料以推動社會進步,特別是在市場與現有的機構並未以其他方式來支援這樣的進步的領域,與此同時,我們也需要相應的框架、結構與研究,來幫助保護我們的核心價值觀念。

奧巴馬政府在資料開放與隱私保護問題上的發展路徑

回顧美國曆史,技術與隱私法都處於不斷交替發展之中。在營造創新環境、促進經濟繁榮的同時,美國一直在全球範圍內扮演著保護個人隱私的領導角色。

憲法第四修正案保護了“人民的人身、住宅、檔案和財產不受無理搜查和扣押的權利”。對實在空間與有形資產的保護體現了尊重、重視人身安全與個人尊嚴的意識,公民良好的社會行為與民主社會的正常執行依賴於此二者。

在美國,一個保護隱私利益的法律框架已經建立起來, 並覆蓋了憲法、聯邦、各州等各個層面。“隱私權”不是一個狹隘的概念,而是由一系列概念組成的,它們針對侵害公民隱私權的各種行為,形成了各個樣式的有針對性的保護措施。在美國,資料收集與將資料造福大眾有著同樣長的歷史。憲法第二章第一款授權進行十年一度的人口普查,以分配美國眾議院議席。在實踐中,人口普查從來沒有僅僅只進行簡單的人數計算,而是收集一些更為具體的以公共利益為目的的人口統計資訊。

自從奧巴馬總統執政以來,聯邦政府採取了史無前例的政策措施,將更多的它所擁有的資料向公眾、公司與創新者開放。從 2009 年開始,奧巴馬政府將大量資料庫向公眾開放,並且將許多資料公佈在美國政府的中央資訊交換庫——Data.gov 網站上。這種將政府的資訊資料當作一種資產並加以披露,使其易於獲取與使用的做法,換句話說,就是資訊的公開化。這大大加強了社會民主程度、開拓了經濟發展機會、改善了公眾生活質量。

奧巴馬政府關於公開資料的舉措

公開資料計劃

根據政府的公開資料,我們憑藉口袋裡的智慧手機就能知道我們所處的位置。幾十年前,聯邦政府將氣象資料與全球定位系統免費對外開放,企業家們得以發明大量的新工具,提供新型服務,天氣預報 APP、汽車導航系統等新發明因而不斷湧現。

在過去,政府收集資料的方式主要是由政府機構自己進行收集,而奧巴馬政府的一系列公開資料的倡議與決策,使得過去在健康、能源、氣候、教育、經濟、公共安全與全球發展等領域內難以收集的資料變得易於收集,開啟了一個新的富有價值的資料寶庫。奧巴馬在 2013 年 5 月 9 日簽署的第 13642 號總統行政令為聯邦資料管理工作提出了新的準則:在保護好隱私安全性與機密性的同時,將資料公開化以及可讀寫化納入政府的義務範圍。擴大公開資料的影響也同樣是總統第二期管理工作規劃的核心部分,例如管理和預算辦公室(Office of Management and Budget, OMB)就已經建議其下屬機構公開更多他們決策所依據的政府資訊,因此,相信資訊公開將可以惠及更多的人。

公眾在 Data.gov 網站上可以找到有關聯邦消費者金融保護局(Consumer Financial Protection Bureau, CFPB)受到的所有抗議的資訊,這些抗議主要針對於阿肯色州學生貸款的 911 個服務領域。這表明每個人可以利用 Data.gov 網站獲得他們所需要的公開資訊,而不需要對政府機構和這些機構所推動的工作專案有特別多的瞭解。感興趣的軟體開發者運用一些簡單的工具,就能夠自動獲得這些資料包的資訊。

聯邦機構在某種程度上應根據公眾的要求優先公佈它們的資料以擴大資料的影響面,每一個機構都被要求需通過諸如郵件系統或是線上平臺等資料反饋機制來徵求它們應當收集哪些資料。這樣一來,任何倡議者、企業家、研究者就能第一時間聯絡聯邦政府,建議哪些資料應該被公開。為了更進一步的形成反饋並促進政府公開資訊的有效使用,政府官員一直在積極召開並參與編碼馬拉松(code-a-thons)、頭腦風暴工作坊(Data Jams)、資料開放運動(Datapaloozas)與其他的一些以資料開放為主題的會議。

根據 2013 年 5 月的總統行政令,管理與預算辦公室以及科技政策辦公室(Office of Science and Technology Policy, OSTP)釋出了一個工作框架方案,為各機構管理運用即時更新的資訊資源這一新形式財產提供指導,包括了對保護個人隱私、資訊可信度的一系列要求30。政府機構根據開放程度已將資訊資產劃分為三個種類:開放性、半開放性、非開放性,並且只能出版發行開放性密級的資訊。為了增進透明度,一些機構需將一些還沒公佈到網上的技術性公開資料納入他們的外部資料財產清單。

“我的大資料”計劃

使政府資訊更公開透明、更易被機器讀寫僅僅是政府資訊政策的一個組成部分。1974 年頒佈的《隱私權法案》授予了公民可接觸一些與其有關的個人資訊的權利,公民行使這一權利應該變得更加安全高效,從 2010 年開始,奧巴馬政府著手採取了一系列主題為“我的大資料”的倡議與措施,使得美國人可以更安全地獲取他們的個人資料,用來更好地處理他們私人領域的申請活動和服務。

“我的大資料”計劃具體包括以下部分:

“藍鈕釦”計劃: “藍鈕釦”允許消費者安全地獲取他們的健康資訊,使得他們可以更好地管理他們的健康與經濟狀況,並與資訊提供者交換相關資訊。在 2010 年,美國退伍軍人事務部(U.S. Department of Veterans Affairs, DVA)開始了“藍鈕釦”計劃,退伍老兵可以通過該計劃下載他們的健康記錄。從那時起,540 萬退伍軍人利用“藍鈕釦”獲取他們的健康資訊,超過五百傢俬人公司允諾向“藍鈕釦”計劃的參與者提供更多他們所掌握的健康資料,今天,超過 1.5 億的美國人能夠從健康服務提供商、醫藥實驗室、零售藥房供應商與州免疫資訊資料庫獲得他們所需的個人健康資料。

“建立副本”計劃:在 2014 年,美國國稅局通過一個名為“Get transcript”的工具將納稅人的資訊資料加以共享,納稅人可以通過它獲得他們自己最近三年的納稅記錄。個人納稅者可以藉此下載過去的納稅申報單,這使得居民進行抵押、學生貸款、商務貸款等活動與填寫納稅表更加便捷。

“綠鈕釦”計劃:在 2012 年,美國政府與電力行業合作推出了“綠鈕釦”計劃,這為家庭與企業提供了便捷的途徑來獲得他們的能源使用資訊, 並且有利於營造良好的消費者環境與電子化模式。今天,為 5900 萬家庭與企業提供服務的 48 家電力供應商通過參與“綠鈕釦”計劃,幫助他們的消費者節約資源。憑藉自身掌握的能源資料,消費者可以選擇享受何種私人服務,以更好地管理他們的能源消耗狀況來達到理財的目的。

“我的學生資料”計劃: 教育部將助學金免費申請表與聯邦助學情況的一些資訊共享,這些資訊囊括了借貸、補助金、註冊與超額償付等方面的具體事項,這使得學生與資助人能夠上網下載所需資訊資源。在這些計劃中,資訊都是通過“注重使用者體驗”、“機器可讀寫”、“文字資訊平面化”的方式實現共享的。

除了為人們提供安全、高效的個人資訊,“我的大資料”計劃幫助建立了一個有效的個人資料獲得性模型,政府也希望將其推廣到更多的私人與公眾領域。獲取個人資訊的能力在未來將會變得越來越重要,生活的各個方面都將會逐步捲入到個人、公司與公共組織的資訊交換之中。

大資料計劃: “資料-知識-行動”

在未來, “大資料”將會成為這個資訊交換過程的核心,使得資料轉化為知識,並進而轉化為行動的過程更加快捷。在 2012 年 3 月 29 日,六個聯邦機構加入到“大資料研究和發展計劃”(“Big data Research and Development Initiative”)中來,超過兩億的科研經費被用於工具與技術開發以推進對海量資料進行獲取、組織與整理並發現有效資訊的相關技術發展。

自從“資料-知識-行動”(“Data to Knowledge to Action”)計劃實施以來,在 1 億美金的“XDATA”專案支援下,美國國防部先進專案研究局(Defense Advanced Research Projects Agency, DARPA)建立了一個關於研究出版物與公開化資源軟體的“開放目錄”,努力發展能夠處理分析存在缺陷的、不完整的海量資料的技術32。國家衛生研究院(National Institutes of Health, NIH)也拿出 5000 萬美金支援開展生物領域的“資料-知識-行動”計劃。國家科學基金會(National Science Foundation, NSF)贊助的大資料研究計劃,為人類基因組研究節省了 40%的經費。能源部也宣佈向“可擴充套件資料的管理分析及其視覺化協會” (“Scalable Data Management, Analysis, and Visualization Institute”)提供一項 2500 萬美元的贊助,這家機構所處理的氣候資料資訊使得季節性颱風預報的準確性提高了 25%以上。還有許多針對大資料的研究支援計劃,比如奧巴馬總統 2013 年 4 月釋出的創新神經技術腦(BRAIN)計劃。作為政府大資料計劃的組成部分,國家科學基金會為大資料中出現的社會、道德與公共政策問題的相關研究也提供了特別的資金支援。

美國隱私法案和國際隱私法框架

美國《隱私法》的發展

工業革命帶來的技術革新浪潮使得社會發生巨大變遷,《隱私法》正是在這一社會背景上發展起來的。隱私權最初由美國學者沃倫(Samuel Warren) 和布蘭蒂斯(Louis Brandeis)在 1890 年由兩人合著的著名法學論文《隱私權》一文中提出,初代可便攜照相機的出現直接促成了他們觀點的提出,在論文中,他們指出“最近的發明與商業應用將人們的目光吸引到個人隱私權的保護上來,…這項權利應不受侵犯…很多技術發明威脅到了隱私權,‘竊竊私語被公之於眾’的預言可能被實現。”提出建立普遍性的隱私保護法的倡議出現在 20 世紀,這一倡議富有預見性,建立了從政府到個人的涵蓋各個方面的公民隱私權。

案例法歷經了上個世紀的發展,其中關於憲法第四修正案的解釋條目隨著時間與技術的發展也在不斷進行調整。在 1928 年,聯邦最高法院受理了“歐姆斯戴徳訴美國聯邦政府”(Olmstead v. United States)一案並宣判在訴訟人屋外設定電話竊聽裝置並沒有違反憲法第四修正案,即使政府以此獲得了屋內談話的內容。但是,歐姆斯戴德案的裁定因為賈斯蒂斯·布蘭蒂斯(Justice Brandeis)的抗辯而傳播得更廣,他寫道:“國父們曾經授予公民其隱私不可侵犯的權利以限制政府的行為。”

歐姆斯戴德案的法庭決議一直沿用,直到 1967 年 “卡茨訴聯邦政府” (Katz v. United States)一案才被推翻。法庭認為,聯邦調查局(Federal Bureau of Investigation, FBI)在沒有調查授權的情況下在公用電話亭外安裝監聽記錄裝置,侵害了個人使用公用電話時應有的同時也是符合個人期待的隱私權,即使這個裝置沒有置於電話亭內部,或是身體以及財物上。此後,主觀期待的隱私權得到保護,社會也開始將這視為理所當然。

民事法庭並沒有立即將隱私權認定為一個公民向他者提起訴訟的正當理由——也就是律師們常說的“訴因”(“cause of action”)。直到 1934 年的《侵權行為法》中,無正當理由地嚴重侵犯個人隱私才被正式確定為可作為起訴的基本出發點。大多數州的法院這才開始將隱私權認定為訴因,這份規定並不是對民事侵權行為的單獨一款規定,而是由 4 款複雜的規定組成的:

行為侵犯個人私人空間或私人事務
公開散播個人隱私
為醜化某人資訊而將資訊公開
為了非個人本人目的而挪用了個人肖像
現在許多批評認為這四款並沒有很好地解決隱私問題,市場經濟下因商業目的而大範圍收集、使用、散播個人資訊的現象仍很嚴重。同時一些人聲稱,自動化的程式應該能減輕隱私問題給公眾帶來的憂慮,因為它是使用電腦來進行操作並完成一系列任務,而不是像過去一樣由人來操作完成。

資訊公平實踐原則

隨著計算技術的發展與它在政府和私人間的應用更加普及,全球的政策制定者們開始重新審視它與隱私的關係。1973 年,美國衛生、教育與福利部發布了一份題為“錄音、計算機與公民權利”(“Records, Computers, and the Rights of Citizens”)的報告。報告分析了“自動化個人資料系統可能導致的不良後果”並建議建立資訊使用的保障措施。這些措施,也就是如今廣為人知的“公平資訊實務法則”(FIPPs),成為了當今資料保護制度的奠基石。

儘管這些法則在法律與國際公約中都有不同的表現形式,但本質上, “公平資訊實務法則” 清楚地表達了處理個人資訊時的基本保護措施。它規定個人有權知道他人收集了那些關於他的資訊,以及這些資訊是如何被使用的。進一步說,個人有權拒絕某些資訊使用並更正不準確的資訊。資訊收集組織有義務保證資訊的可靠性並保護資訊保安。這些法則成為了 1974 年《隱私法》的基礎,這一法案規範了聯邦政府在個人資訊的維護、收集、使用與傳播等方面的行為。

19 世紀 70 年代後期,幾個其他國家也相繼通過了隱私法。 1980 年,經濟合作及發展組織(OECD)釋出了其《關於隱私保護和個人資訊跨界流動管理的指導》 (“Guidelines Governing the Protection of Privacy and Transborder Flow of Personal Data”)。基於“公平資訊實務法則” 的經濟合作及發展組織指導並提供了關於過去三十年裡國家隱私法,特別行業隱私法及其實踐的資訊。1981 年,歐洲委員會通過了《個人資訊自動處理中的個人保護公約》(“Automatic Processing of Personal Data”, Convention 108),這一公約採用“公平資訊實務法則”的手段來凸顯歐洲對於隱私權的保護。

儘管有一些關鍵的不同,但是美國和歐盟國家關於隱私權保護的框架都是基於 “公平資訊實務法則” 。基於隱私權是基本人權這一認識,歐洲國家的保護措施通常包括自上而下的嚴格法制與對於個人資訊的使用的全面限制或是要求資訊主體的明確同意。相對的,美國則通常採用在例如醫療保障與信用體系等特別領域實施特別規定來管控特定的風險。這使得美國很少有對於資訊使用的全領域普適規則,從而為產品與服務的創新留下空間。但是,但這也為潛在的資料跨領域使用留下了空間“公平資訊實務法則” 形成了諸多部門法與國際公約的共同思路。他們被編入 2004年《亞洲太平洋經濟合作組織隱私權法則》 (“Asia Pacific Economic Cooperation Privacy Principles”),這一檔案由亞洲太平洋經濟合作組織(簡稱亞太經合組織或 APEC)成員國簽署通過,並構成美國-歐盟與美國-瑞士的安全港框架基礎,這一框架將以對於“公平資訊實務法則”的一致觀點作為溝通美歐法律的基礎。

美國特定行業的隱私法

上世紀七八十年代的美國,特別制定的行業法律開始出現並作為以侵權行為為基礎的習慣法的補充。這些法律只對特定的資料提供保護。除了少數例外,大多數州與聯邦政府都通過了相應法律。

《公平信用報告法案》(“Fair Credit Reporting Act”, FCRA)最初頒佈於 1970 年,這一法案旨在促進消費報告機構所收集的資訊的準確性與公平性的同時,推進相關隱私保護。這些資訊被用於信用與保險報告、僱員背景調查與租戶篩查。這一法案賦予了個人訪問與修正個人資訊的權利,從而保護了消費者的權利。它要求那些提供消費者報告的公司確保資訊的準確與完整;它限制這些資訊的使用;它要求這些機構在依據報告進行不利於當事人的措施(例如拒絕貸款)時需盡到告知的義務。

1996 年 的 《 健 康 保 險 攜 帶 與 責 任 法 案 》 (“Health Insurance Portability and Accountability Act” ,HIPAA)規定個人健康資訊只能被特定的、法案中明確的主體使用並披露,法案中也包括了用於幫助個人瞭解並控制其健康資訊使用的標準。49《健康保險攜帶與責任法案》(HIPAA)的核心原則是“最小化必須”(“minimum necessary”)原則。50國會與衛生部會週期性地升級健康資料的保護。1998 年《兒童線上隱私保護法案》(“Children’s Online Privacy Protection Act”, COPPA) 和聯邦貿易委員會 (Federal Trade Commission, FTC)的法令要求用於 13 歲以下兒童的線上服務或要收集兒童個人資訊的線上服務需要獲得父母的同意才能進行。在金融領域,《金融服務現代化法案》 (“GrammLeach-Bliley Act”, GLBA)要求金融機構尊重客戶隱私並保護客戶非公共資訊的安全與機密。在諸如教育,通訊,錄影帶租借與基因資訊等其他領域,也有相應法案保障隱私。

消費者隱私權法案

2012年2月, 白宮釋出了一篇名為消費者資料隱私權的報告:在全球數字化經濟環境下保護隱私權與促進創新的新體系框架(“Consumer Data Privacy in a Networked World: A Framework for Protecting Privacy and Promoting Innovation in the Global Digital Economy”)。52這種“隱私”藍圖包含四個關鍵要素:基於資訊公平實踐原則的消費者隱私權法案;呼籲政府的多方利益相關者在特定的商業環境應用這些原則;對隱私權有效執行與對制定消費者隱私權立法基準的支援;對支援資料跨國流動的國際隱私權制度的承諾。

隱私權藍圖的核心是消費者隱私權利法案,它對消費者保護標準進行明確規定。這些權利是:

個人控制:消費者可以對企業從自己這裡收集什麼資訊,以及如何使用這些資訊進行控制

透明:消費者有權簡單易懂地獲取有關隱私權與安全實踐的資訊。

相關環境:消費者有權得知企業如何在消費者提供資訊的相關環境方面進行收集、使用與披露使用者資料安全:消費者的個人資料必須得到安全與負責任地處理

可修改和準確性:因個人資料的敏感性,以及不準確的資料會對消費者有產生不良後果的風險,消費者有權查閱並更正個人資料

聚焦收集:企業在合理的限度內收集與儲存使用者資料

問責:擁有個人資料的公司有義務採取適當措施,以確保它們符合《消費者隱私權法案》(“Consumer Privacy Bill of Rights”, CPBR)

《消費者隱私權法案》更加關注消費者而非僅僅是以往用法律術語表達的隱私結構。比如,它根據“易接受性和準確性”(“access and accuracy”)的原則對權利進行描述,與以往對於“資料的質量和完整性”的公式化表達相比,更易為使用者理解。同樣的,它確保了公司將會尊重從消費者收集與使用資料的背景環境,從而取代“目的說明”(“purpose specification”)。

《消費者隱私權法案》還借鑑了公平資訊實踐的原則以更好地適應我們所生活的網路環境。

與要求企業遵循一系列專一、嚴格的條令不同,《消費者隱私權法案》建立了一般原則並提供給企業自由決定如何實施這些條令的權力。《消費者隱私權法案》的相關環境原則與其他六大原則相互間產生作用,確保消費者的資料將以符合他們的期望收集並使用。與此同時,相關環境原則允許了企業在資訊的使用與“企業-使用者”間的關係以及圍繞如何收集資料的環境保持一致時,可以開展新的能夠使用個人資訊的服務。

網際網路的複雜性、全球性與持續的發展需要及時的、可發展的創新扶持政策。為了應對這個挑戰,《隱私法》的藍圖呼籲所有利益相關者聚集到一起,制定自願性的,強制性的行為準則,明確規範如何將《消費者隱私權法案》應用到具體的商業環境中。《消費者隱私權法案》是基於廣泛的基準原則與具體的行動守則的結合,能夠在支援創新的同時保護好消費者。

提升全球互操作性

在其他國家與國際組織開始複核他們的隱私保護框架時,奧巴馬政府釋出了 《消費者隱私權法案》 。在 2013 年, 經濟合作與發展組織升級了自己的隱私權指導方針,這在機制上補充了公平資訊實踐原則,幫助落實並加強了隱私保護。在 2013 年釋出的亞太經合組織跨境隱私規則系統,也在很大程度上效法了經濟合作與發展組織的指導方針。53歐委會正在稽核第 108 號協定( 《個人資訊自動處理中的個人保護公約》, “Automatic Processing of Personal Data”) 。在這些不同的隱私保護框架之間建立橋樑, 對確保國際貿易的強勁增長是至關重要的。

歐盟也正在推進其資料保護規則的改革程式。現有的歐盟資料保護指令僅允許歐盟公民資料享有 “充分的”隱私保護法案,或向擁有有效的資料安全保護機制的國家(如美國-歐盟安全港協議)流出。在 2014 年 1 月,美國與歐盟開始協商,如何加強安全港協議框架以確保它能繼續提供有力的資料保護,並且能使提高其透明度, 得到有效執行與法律上確定性三者成為可能。這些談判都還在繼續,即使像歐洲、美國,也都在磋商這些隱私保護框架將如何適應大資料技術的同時,能夠增加計算與儲存能力。

在 2014 年 3 月,聯邦貿易委員會與歐盟機構的官員連同亞太經合組織一同宣佈,歐盟與亞太經合組織將釋出共同的計劃檔案,滿足雙方在隱私保護框架方面的共同需求。56這項籌劃工作將幫助那些在歐盟與亞太經合組織地區同時進行貿易的公司解決在兩方隱私保護中的認證問題,避免因雙方框架不一致或重疊所帶來的困難。這樣的努力澄清了公司的義務,幫助在全球隱私框架之間建立起相互間的操作性。

結論

目前最普遍的隱私風險依然是涉及“小資料”——定向妥協的內容,例如,以個人銀行資訊為目的的金融詐騙。這些風險並不涉及到大量的、急速的資料,或是繁多的資訊種類,也沒有隱含有與大資料有關的複雜化資訊。對於“小資料”的隱私保護在美國已通過公平資訊實踐原則, 藉由特定的部門法律,強有力的執法部門與全球隱私保護機制得到有效的解決。

隱私權方面的學者,政策制定者與技術專家現在正轉向大資料的問題,即如何在 “公平資訊實務法則”的基礎框架下對大資料技術進行有效的管理。這份調查報告的剩餘部分就將探索大資料在公共與私營領域的應用,然後將考慮大資料的整體應用對現有隱私保護框架的可能影響。

公共部門的資料管理

國家維護著和平,並同時保障食物的安全,確保空氣與水源的乾淨。為此,它頒佈法律法規來規範經濟與政治行為,而大資料技術則有望使這些政府所提供的服務得到全面的提升。

本章將探討大資料是如何幫助政府更好地履行它在醫療、教育、國土安全以及法律執行方面的職責,並指出大資料帶來的挑戰。自建國起,關於政府應該做什麼、不應該做什麼的討論以及如何在科技日益發展的同時保護公民權利的疑問就不曾間斷過。當合眾國的奠基者們為這個年輕的國家制定法律與規範時,他們就為如何避免私人空間受到政府不恰當的干預而苦苦思索。而今天,大資料帶來的改變或許會讓他們大吃一驚:摩爾定律和澤位元組正與憲法和權力法案一樣,在國會的爭論中起到舉足輕重的作用。

從核心層面上講,政府機構對於大資料的使用會加劇我們對政府與個人間權力平衡的擔憂。公民資訊一旦為了某個特定的目的而被編輯整理,它們就很有可能被用於其他目的,這在國家處於緊急狀態時將顯得尤為突出。政府在二戰期間濫用其資料便是其中最為可恥的例子之一:本是在嚴格的保密條件下蒐集的普查資料被用來確定日裔美國人的居住地並以此來將其扣留至集中營直到戰爭結束。

因為政府在為公眾利益行使權利與權威的同時承擔著特殊的責任,所以我們必須慎重考慮大資料在公共部門的使用方式以及對政府部門的資料使用的控制與限制方法。如果任其發展,大資料可能成為政府權力凌駕於公民權力之上的工具。而與此同時,大資料也能被用於進一步加強責任制,並設計一套從本質上更尊重個人隱私與公民權利的政治系統。

大資料與醫療保健服務

資料一直是醫療保健服務中的一部分。在過去的幾年中,議會出臺了相關法案來鼓勵醫療保健服務供應商過渡至使用電子病歷,這極大地提高了可供臨床醫生、研究者與病人使用的資料量。隨著《患者保護與平價醫療法案》(“Affordable Care Act”, ACA)的制定,醫療保險的償付機制正開始從相互分隔、具有潛在不協調性的“按服務收費”(“fee-for-service”)模式轉變至基於更佳健康狀況的付費模式。總而言之,這些趨勢正在幫助形成一個“學習型”醫療保健系統,在此係統內,臨床資料將迅速反饋給患者並指導治療有效進行。

大資料可以確定飲食、運動、預防護理和其他生活方式因素對健康的影響,使得人們不必向醫生尋求醫療保健意見。大資料分析能夠幫助確定臨床治療、處方藥劑以及公共衛生干預對於特定或廣泛群體的效果,並對傳統研究方式提供參考。從支付角度來看,大資料能夠保證給患者提供治療的醫生有優秀的臨床記錄,同時,治療的費用根據患者的康復效果而非治療本身的次數確定。

預測醫學的新起是大資料在健康領域的終極運用。這項強大的技術可以同時深入解析一個人的健康狀況與遺傳資訊,使醫生更好地預測特定疾病在特定個體上是否可能發生,並預測患者對於特定治療方式的反應。與此同時,預測醫學提出了許多複雜的問題。傳統意義上,健康資料的隱私政策都力求在臨床資訊被分享與分析的同時保護相關患者的個人身份資訊。而逐漸地,基於特定群體或人群的資料將在臨床症狀出現前或出現後不久被用於確定疾病的型別。

但是,預測醫學挖掘出的資訊所帶來的風險將超出單一個體,一旦出現差錯,不僅遺傳資訊提供者本人,他的孩子以及未來的後代等擁有與他相似遺傳資訊的人都將會受到牽連。因此,將基因組資料與醫療保健資料相連線的生物資料庫便成為了個人隱私在醫學研究與治療領域中的無法迴避的前沿話話題。

目前的隱私框架在不久前才包括了正在使用的健康資訊,這一框架或許不能很好地解決上述發展帶來的問題並推動相關研究的進行。運用大資料來改善健康狀況需要先進的分析模型來攝取包括生活方式、基因組、醫療與財務資料在內的多種資訊。生活方式與健康狀況之間的緊密關係意味著個人資料與醫療保健資料之間的界限已經開始模糊。而這些型別的資料卻收到不同的、有時甚至是相互衝突的聯邦和各州政府的監管,其中包括《健康保險便利和責任法案》(“Health Insurance Portability and Accountability Act”, HIPAA)、《金融服務法現代化法案》 (“Gramm-Leach-Bliley Act”, GLBA)、《公平信貸報告法案》(“Fair Credit Reporting Act”, FCRA)與《聯邦貿易委員會法案》(“Federal Trade Commission Act”, FTCA)。當資料的來源多種多樣時,同時遵守多個法律帶來的複雜性隨之增加,與此同時,醫療機構還會與不受上述法律約束的許多組織相互勾結,形成一整套利益鏈條,各種個人健康資訊被一系列企業共享,甚至於州政府會違背消費者對個人醫療資料隱私保護的意願而出售其相關資料。在此情況下,針對醫療保健領域的大資料部門的設立也就成為了迫切之需,此舉同時有望進一步降低行業成本並激發發展潛力。

儘管醫學技術不斷變化,但健康資料仍然是我們生活中非常私密的部分。在大資料使得較之以往任何時候都更為強大的發現成為可能的同時,重新審視相關資訊被所有醫療保健機構共享後的隱私保密方式也顯得相當重要。醫療保健行業的領導者已經呼籲構建一個更為廣泛的信用框架,使得不同來源、不同隱私保密程度的健康資料得以匯聚。這一框架需要附加《健康保險便利和責任法案》與《反基因歧視法》 (“Genetic Information Non-Discrimination Act”, GINDA)中的隱私保護條款,並同時設計標準化資料結構以提高其跨平臺適應性。在研究了健康資訊科技後,總統科技顧問委員會得出以下結論:國家需要建立統一的資料標準與結構使不同型別的資料記錄可以在受到控制的條件下方便訪問。

在醫療資料保密框架逐步跟進技術發展的過程中,需要全美醫療保健與保險的供應商之間細緻協商,而這份努力,將為未來的國民經濟與公民健康的福祉奠定基礎。

對學習的研究:大資料與教育

如今,上到大學,下至幼兒園,眾多科技幫助並提升了學生在課內外的學習過程。獲取學習資料、觀看授課視訊、評價教學活動、進行團隊合作、完成家庭作業、參加課程考試,這一切都可以在網際網路上完成。

這些基於科技進步的工具與平臺給予了學生與教師更多的可能性。僅需數代的革新,這些工具就能提供實時的評估來使學習資料能夠按照學生的接受速度來進行演示。不僅如此,教育技術還能擴大受教育人數、增進學生間的互動並使教學內容的持續性反饋成為可能。

除了個性化的教育,新的資料型別的運用使得研究者對於學習行為的研究能力有了質的飛躍。從大規模開放線上課堂等基於科技的學習平臺上獲取的資料可以被精確跟蹤,藉助這些資料,我們能夠進行對遠超傳統教育方式的探索,對學生學習軌跡的移動進行更為準確與廣泛的研究。具體包括:深入瞭解學生在學習活動中的接收效果,根據不同的學習目標,選擇合適的學習資料,並進一步地運用這些資料幫助那些處於相似狀況的學生。目前,教育部正在研究如何運用這些科技,並已開始整合國家教育技術計劃下線上教學平臺所產生的資料,並計劃成立虛擬學習實驗室,為進一步的研究提供方法論上的指導。

教育領域的大資料革命同時也帶來了一些亟待解決的問題:隨著科技日益深入課堂教學,我們如何最好地確保學生的隱私不受侵犯。一方面,各州與本地社群歷來都是教育的主要提供者;另一方面,大量的線上學習工具與課程都是由盈利性企業提供。這就導致了在誰有權獲得線上教育平臺產生的資料及這些資料應當如何被使用的問題上備受爭議。對於這類教育記錄,《家庭教育權和隱私法案》(“Family EducationalRights and Privacy Act”, FERPA)、《保護學生權利修正案》(“Protection of Pupil Rights Amendment”, PPRA)和《兒童線上隱私保護法》(“Children’s Online Privacy Protection Act”, COPPA)中的相關條文在使用過程中都會遇到相應的挑戰。

在大資料時代保護兒童的隱私

今天的孩子們是從識字前就接觸數字裝置的第一代人。在美國,青少年是移動應用與社交平臺上的活躍使用者。當他們使用這些科技時,關於他們的精確資料,其中一些甚至包含敏感資訊,就在網路上被儲存與處理。這類資料既包含能夠大幅度提升孩子的學習效果併為其開啟全新機遇的可能性,但同時,也可能在他們成人時形成一份入侵型的消費者個人資訊,或通過其他方式對他們之後的生活產生影響。雖然年輕人一般與成年人一樣乃至更加清醒地意識到資料會被商業機構與政府部門使用,但他們的資料還是會經常地受到父母、老師、大學招生人員、軍隊徵兵人員與社會工作者的審查。他們中的弱勢群體,包括寄養兒童與無家可歸的年輕人,他們通常沒有得到成年人的指導因而特別容易遭受資料濫用與身份盜竊。在強有力的監視之下,年輕人苦苦尋找保護他們隱私的方法,即使他們無法限制別人對於分享內容本身的獲取,許多年輕人仍然嘗試著用多種方式將所分享內容的含義變得模糊、晦澀,使得只有特定的物件才能理解其中的意思。

因為年輕人是那麼的年輕,他們需要適當的自由來探索與嘗試而不至於因一時的疏忽在日後受到揮之不去的侵擾。兒童線上隱私保密法要求網站運營商與移動應用開發者在收集低於13週歲的兒童的個人資訊時必須徵得其父母或監護人的同意。而現在,我們對於兒童正在遭受什麼“傷害”以及怎樣的政策框架才能確保他們伴隨技術成長是一種促成而不是阻礙都還沒能得出一個確定的結論。

與醫療保健一樣,青少年在與數字教育平臺的互動中表現出的部分資料是極其私密的個人資訊,這些資料包括對於特定學習方式的偏好和他本人相對於其他學生的表現。它甚至能夠分辨出有學習障礙或注意力無法長時間集中的學生。根據學生在一天內的上線與線上時間,他個人的生活習慣甚至都可以被獲知。教育機構應當如何使用這類資料來改善學生的學習機會?對於使用這些平臺的,特別是處於基礎教育階段的學生,他們如何能夠保證自己的資料是安全的?

為了回答關於這些資料的所有權與恰當使用方式的複雜問題,教育部於2014年2月公佈了針對線上教育服務指南。指南明確指出,只有滿足《家庭教育權和隱私權法案》與《保護學生權利修正案》中規定的具體要求,學校或學區才可以才能夠與第三方機構簽訂涉及學生資料的協議。隨著越來越多的線上學習工具和服務可以為孩子們所使用,州與地區政府也正密切地關注著這些問題。學校與學區以未來合法的教育效益為目的共享受到保護的學生資訊,並且在分享的過程中必須對這些資訊保持“直接控制”。即使在這新的指導之下,如何在大資料世界中最好地保護學生隱私仍必須是一個持續的議題。

當局正致力於解決這些問題,並通過教育部加以實施,來使得所有的學生在享受大資料在教育與學習上帶來的創新效益的同時免於受到其潛在威脅所帶來的傷害。正如教育部長阿恩·鄧肯(Arne Duncan)所說:“學生資料必須是安全且珍貴的,無論它儲存在何處,它都不是一種商品。”這意味著必須確保學生的個人資訊與線上活動不受到不恰當的使用,尤其當這些資訊是在教育環境下被收集的。

大資料在國土安全部

每一天,有兩百萬人次乘坐飛機穿梭於美國上空,超過一百萬人通過陸路進入國內。驗證每一個人的身份並確定他或她是否會構成威脅的工作落到了國土安全部(“Department of Homeland Security”, DHS)的頭上,後者必須在數秒內處理大量的資料來完成這項職責。這項工作不僅僅是從一個“草垛”中尋找一根“針頭”,保護我們居住的家園往往需要從許許多多的“草垛”中找出那根最為關鍵的“針頭”——一個典型的大資料問題。

確保國土安全部有效而合法地使用它蒐集的資訊是項艱鉅的任務。在“911”恐怖襲擊之後,國土安全部已經分離出22個獨立的政府機構。如今國土安全部中的許多資料庫仍分散各地,執行著陳舊的作業系統,而無法整合不同安全級別的資訊。除此以外,國土安全部的職責組合方式多樣,而這些職責本身卻分別由在法律上獨立的部門執行。在任何時候,這些資訊必須在保護本國公民和進入或定居於本國的外籍公民的隱私與人身自由的條件下被用於授權過的特定目的,而這確保資訊被正確使用的任務,就由國土安全部總部的六個辦事處執行。

自 2012 年起,來自資訊長、政策部門和情報部門的代表與個人隱私、公民自由和法律監督方面的官員一同開始執行第一個跨部門大資料應用試點專案——“海王星”(”Neptune”)與“地獄犬”(“Cerberus”)。“海王星”專案計劃將不同來源的未經分類的資訊匯聚成一個“資料湖”,並在其內部設定多項安全保障措施,包括新增多條資料標籤的許可權與精確到“哪些使用者可以基於哪些目的使用哪些資料”的訪問規則。所有這些資料都依據一套精細的方案貼上標籤。在政府使用的過程中,重點關注是否存在經授權的訪問目的,訪問任務和必要事項以及使用者本身在訪問資訊時是否具有合適的工作證明和明細。在這種方式下,通過對資料標籤、使用者屬性與訪問前後資訊的三重定位就能確定哪條資訊在何處被誰訪問。

資料管理的一個案例

為了在它的大資料試點專案中確定資料標籤的統一標準,國土安全部還將資料系統的所有者與來自個人隱私、公民自由與法律監督辦公室的代表聚集到一起。對每一領域的資料,他們都共同制定其資料屬性並針對不同的使用者群體設定了對應的訪問許可權。在制定出一整套標籤來對資訊進行編碼後,他們又針對特定的使用限制或一些法律法規下的特殊情況設計附加的規則與保護措施。通過這種新增標籤的方式,不僅可以完成高精度的資料訪問控制,同時也保留了源資料與其原始蒐集目的之間的聯絡,最終形成了一套對資料從哪裡來、到哪裡去得到進行全程監控的分類規則。

每個資料庫中的欄位分為三類:核心身份資訊:例如姓名,出生日期和公民身份;擴充套件身份資訊:包括地址、電話號碼和電子郵箱;具體的隨機資料:衍生於國土安全部中國的電子資訊與真人資訊的匹配過程。隨機資料是最為敏感的資料型別,它可能包括執法人員對被訪者的觀察記錄以及對被訪者提出的威脅國土安全的指控。此時詳細的規則就能借助資料標籤來確定哪些人可以以何種目的訪問這些資訊。在這兩個試點專案中,大多數訪問許可權的規則設計都需要國土安全部內不同部門的資料使用者間的持續協商才完成。例如,許多資料使用者需要核心身份資訊訪問許可權來獲得完成相應的任務所需的特定資料,但由於特定的使用限制,一些規則要求這些資料者提供與所確定的標準更為匹配的資訊。

“海王星”與“地獄犬”試點專案同時包含對資料使用者能夠採用的搜尋方式的重要限制。一個基礎檢查點可能只需要對一個特定的個人進行資料搜尋,因為這個檢查點僅需核實基本的身份資訊。但是,移民局和海關在偵查案件時,就需要對個人基礎身份資訊和特徵資訊進行搜尋。而國土安全部的情報分析員就可能需要綜合身份、特徵與行動趨勢資訊來分析國家安全的潛在威脅。同時,系統管理員也沒有系統內部資料的訪問許可權,因此資料庫的框架設計要允許管理員在不訪問任何個人記錄的同時也能維持整體系統的正常運作。

在這兩個試點專案中,資料庫以完全不同於國土安全部自2002年沿襲至今的方式進行了重新組織。在這些大資料的相應舉措開始之前,跨越不同部門的資料庫搜尋較為不便,而將這些資料進行彙總更是難上加難。在過去,資料的使用者與系統管理員一旦登陸成功便很有可能獲得所有的訪問許可權,這些訪問有時甚至不會受到跟蹤、監測。如今,國土安全域性有能力精確設計根據任務需求而定的訪問許可權。最重要的是,在這些先進的資料庫中,通過人為地制定標籤和資料的重新組織,國土安全域性能夠在強有力的法律監督下實施新型的事件預測與異常分析。

國家安全域性如此細緻地設計資料處理系統並不是偶然的結果。國家安全域性內部專門設有獨立的隱私辦公室與公民權利與自由辦公室,每一個辦公室都配有專業人員來幫助研究處理這一複雜領域的相關事務。每一個試點專案在實施前都會向社會公眾公佈詳細的隱私影響評估報告。國家安全域性同時向公眾提供各專案的介紹並接受大眾對於專案具體措施的問詢。經過這一系列的工作,隱私與公民自由辦公室的官員不僅批准了這兩個試點專案的實施,還同時通過了服務於未來功能擴充套件的配置建設。所有這一切都將有助於推動國土安全部的計劃能在確保隱私和公民自由自始至終得到密切關注的同時得到進一步的發展。

在執法過程中貫徹隱私價值觀

在法律執行方面,大資料是一個強有力的工具。近日,美國國防部高階研究計劃局(“Defense Advanced Research Projects Agency”, DARPA)的“記憶延伸”(“Memex”)計劃下開發的高階網路工具已幫助聯邦執法部門在查明美國人口販運網路的工作上取得實質性進展。這些工具不僅整理眾所周知的“表層網路”(“surface web”)資訊,還同時收集“深度網路”(“deep web”)下那些不被常用搜尋引擎索引的公開資訊。通過對網路站點的大範圍搜尋,這一工具能夠發現原本難以獲得或需要大量時間才能發現的資訊。執法部門現有的資料能夠鎖定可能的人口販賣團伙,進而協助幹警確認性販賣與其他犯罪活動的聯絡。目前,該工具已幫助偵察出一個起源於亞洲並蔓延至美國多個城市的人口販賣網路。這是大資料能用以幫助世界上部分最脆弱人群的有力佐證。

大資料技術為執法部門等安全保障機構提供了有效的工具,但大資料技術的合理運用也是個難題。整合多種資料來源能夠讓我們更全面地瞭解嫌疑人在作案期間的相關活動,但同時,在僅有極少甚至沒有任何人工干預的情況下,行為模式分析可以揭示犯罪組織的組成或用以預測未來可能發生的犯罪行為。廣泛收集資料能夠幫助抓捕罪犯,但同時也可能會讀取到非調查物件的詳細個人資訊。具體到法律執行過程中,我們必須謹慎行事,確保大資料技術在用於保護社會安全、公正執法的同時,兼顧對公民自由與公民的合法隱私權益的保障。

大資料將自然而然地以各種形式合理應用於國家安全層面。一套匯集全球資料的強大智慧系統將用以偵查恐怖組織網路,提供攻擊預警,以及阻止大規模殺傷性武器的擴散,而與此同時,它將運作於各種法律機構的授權和監督之下,較之協助調配警力至高危犯罪區域的執法系統,將提供更多的隱私保護。即使應用於不同領域,在整個執法和情報背景下,維護公民的隱私和權利始終是一致的。隱私保護和執法官員必須確保在系統執行的任何情況下,減少資訊持有的最小化原則和控制訪問的資訊標籤技術均能夠得以保證實施。

新的工具與新的挑戰

新技術的使用已導致過重要的憲法判決,在執法領域更是如此。正如大法官阿託利在 2013 年最高法院關於警方在未收到法院命令的情況下擅自在嫌犯的汽車上安裝全球定位跟蹤器一案的判決中所指出的:“雖然幾乎無法想象,但相似的情況在 18 世紀後期也曾發生過。”“你能夠想象一位警官為了掌握馬車伕的行程而將自己藏於馬車內嗎?”阿託利進一步指出,“類似的事或許在 1791 年就已經發生過,只不過現在的‘馬車’更大而‘警察’更小了。”

這個“小型警察”(“tiny constable”)卻有著巨大的影響。無論是全球定位系統的跟蹤、閉路電視的監察還是肉眼無法識別的感測器,這些監視無處不在,這也使得對隱私的合理預期以及對執法技術的約束和合理運用的訴求越來越普遍。

近幾十年來,監控器材的體積越來越小,監控成本也越來越低。得益於此,全美超過 70 座城市都配置了音訊感測器來確定槍聲發出的位置以便快速派遣警員到可能的案發現場。不僅如此,隨著資料訪問速度的加快與儲存成本的降低,各地警方也能夠在全市範圍內實時獲取車牌與其他車輛資訊,並加以儲存以備後期使用。

這些技術帶來的便利是巨大的。從尋找失蹤人員到開展複雜的搜捕行動,先進的監察技術使得聯邦政府及各州、各地區政府能夠對犯罪行為進行更加迅速與有效的反饋。同時,這也使得正義在網路犯罪的偵察中得到更好地貫徹:執法部門能夠通過這些技術及時獲取電子證據來將這些高科技罪犯繩之以法。

除了監控,大資料帶來的預測技術為執法部門提升了更好地準備、干預或徹底阻止某些犯罪行為的潛力。以洛杉磯與孟菲斯警方所使用的程式為例,分析軟體能夠實施預測進而形成一個地區的“犯罪熱點圖”(“hotspots”)。許多城市通過加強相應“熱點”地區的巡邏警力,有效降低了轄區內財產犯罪的數量。

富有爭議的是,預測分析技術如今已能被用於對某一獨立個體的犯罪傾向分析。針對一場幫派火拼,芝加哥警方嘗試將犯罪預測的側重點由地理資訊轉移至身份資訊。通過將警方資料與其他資料進行整合,同時加以社會網路分析,芝加哥警方根據與暴力犯罪的相關因素形成了一份涉及約400人的名單。據此,警方能夠在已有的指控與犯罪記錄證據之外,對一些特定個人提高防範。

預測分析技術也被刑事司法領域的其他方面。在費城,警方正運用軟體預測哪些假釋犯在出獄後再次犯罪的可能性較大進而需要加強監督。該軟體使用二十幾類變數,包括年齡、犯罪史及地理位置等。

與此同時,這些新技術應當如何及何時應用的問題引發了巨大的爭議。80一方面,這些技術能夠幫助執法等其他公共資源得到更加精確地分配並同時減少犯罪的發生;另一方面,《憲法》與《權利法案》所賦予我們的相應權利必須得到捍衛。

警察部門通過運用一系列資料與演算法來預測犯罪機率並在犯罪活動開始之前調配警力,這有著重大意義。它要求我們對憲法在監察方面定義的行為——“特別懷疑”(“individualized suspicion”)的含義進行仔細審視。長期以來,我們都信奉著“一個人的行為、運用與個人背景都受到執法部門的監控的局面,會對自由言論與結社的權利產生‘寒蟬效應’”的合理觀點。下一節中我們將探討大資料技術對法律中的哪些特定領域帶來了改變。

大資料技術對隱私法的啟示

第三方資料的訪問許可權

至今為止,個人檔案與記錄經歷了由以紙為載體存放在家中,到以電子文件的形式儲存於家用電腦的硬碟內,再到以多種檔案格式同時儲存在本地與可供多臺終端訪問的雲端的三個階段。隨著遠端控制技術與雲端儲存技術在個人電腦與檔案管理領域普及,我們必須採取相應的措施以保證法律跟上技術發展的腳步。

什麼是值得保護的,我們對於這一問題的思考大部分是建立在這一個體是否期望將這一行為歸為自身隱私範疇的基礎上的。正如大法官波特·斯圖爾特(Potter Stewart)在1967年的卡茨案中所指出的:“第四修正案所保護的是人,而不是地方。當一個人的行為是其自身故意暴露給公眾的,即使這一行為是發生在他自己的家裡或辦公室內,該行為都不適用於憲法第四修正案……但若是他將某一行為視為自己的隱私,即使處於公開場合,這一行為也可能會受到憲法保護。”

兩年後,最高法院的判決進一步闡述了憲法第四修正案中對於分享給第三方機構的資訊的規定。在 1976 年美國訴米勒案(United States v. Miller)中,法院裁定憲法第四修正案並未禁止政府獲取“那些提供給第三方機構並由其轉交給政府的資訊,即使這些資訊是在其本身僅被用於特定目的的,同時要求第三方機構不得將這些資料透露給他人的條件下提供給該機構的”。83三年後,在史密斯訴馬里蘭州案(Smith v. Maryland)中,史密斯因其自願向電話公司提供的撥號資訊沒有得到相應的與基於個人隱私的合理預期相符的保護而進行申述。最高法院重申:“它依然…認為一個人對其自願轉交與第三方機構的資訊沒有基於隱私的合法預期”。

米勒與史密斯案(Miller and Smith)是經常被引用來說明最高法院所具有的根本性的“第三方主義”(“third-party doctrine”)的案例。幾十年來,這一學說始終認定,當個人自願向諸如電話公司、銀行甚至其他個人等第三方提供資訊時,政府能夠在不觸及憲法第四修正案給予的個人權利的前提下,無需個人認可地從這些第三方機構中獲取資訊。執法部門依然根據“第三方主義”來獲取在刑事案件偵破與國家安全調查中發揮重要作用的資訊來保證全國居民的安全;而聯邦法院則在之後的判決中將該主義廣泛運用在實體資訊與電子資訊之中。

在此背景之下,國會與各州議會頒佈法規,為某些型別的資訊提供附加的保障。1974年頒佈了用以保護聯邦政府所持有的個人資訊的《隱私法》(“Privacy Act”);1986年通過了用以保護電子通訊記錄(物件之一)的《電子通訊隱私法》(“Electronic Communications Privacy Act”, ECPA)和保護撥號資訊(物件之一)的《禁止監視記錄器與/或追蹤設定法案》(“Pen/Trap Act”)。這些法案填補了憲法第四修正案在保護第三方機構所持有的資訊的不足,為相關隱私資訊提供了法律保護。

隨著技術的進步,特別是人際交往過程中電子記錄的成倍增長,一些評論家呼籲對“第三方主義”進行復審。 2010年,在美國沃夏訴案(United States v.Warshak)的六審判決中,法院判決電子郵件“類似於信件與電話”並屬於基於個人隱私的合理預期的範疇,政府不能要求商業網路服務供應商在不事先通知使用者預期結果並獲得許可的情況下提供使用者的電子郵件資訊。在近期的最高法院的判決中,大法官索托馬約爾(Sotomayor)則表示,“在這個人們將大量的個人資訊儲存在第三方機構來完成日常工作的電子時代”,當前對於第三方機構的資訊流出的監管做法是“不合適”的。

雖然我們未曾獲知自沃夏訴美國案後是否有任何法院曾通過下述判決:除非得到使用者的同意,其個人的電子通訊資訊不得在未經授權的情況下被訪問,但是現在“第三方主義”正繼續適用於此類通訊的後設資料,並經調整後應用於基站地址資訊與無線網路訊號資訊上。

這份關於大資料與個人隱私的調查報告還對個人隱私、市場信心與在政府強行迫使第三方機構透露電子資料中涉及的相關法律等方面進行了深入研究。為了跟上科技發展的步伐,我們需要不斷檢驗自身的法律與政策,並考慮如何在隱私保護方面將儲存在諸如雲端等遠端儲存器中的內容資料與儲存在家庭或辦公室的硬碟上的內容資料相聯絡。在過去的30年裡,簡訊、電子郵件與其他交流平臺已經成為了私人通訊的重要手段,而這些資訊大多儲存在遠端儲存器中。

資料與後設資料

從購買商品到上傳數碼照片,普通的美國人一天內會與企業進行數次形式各異的交易。這些交易會產生記錄,而其中像藥店票據一類記錄還會涉及個人的敏感資訊。在日常的行為中,使用者也進行著大量的“數字化排放”(“digital exhaust”)或產生許多跟蹤資訊,留下更多碎片化的資訊,手機傳輸時的地理座標與伺服器日誌中的網際網路通訊協議地址就是兩個很好的例子。藉助更加強大的分析工具,部分細小且彼此間毫無關係的資料碎片也能得到識別,進一步加強了第三方機構所蒐集與持有的資料被加以合併與分析來揭示更多個人資訊的可能性。如何使這些材料與從中挖掘出的資訊得到應有的保護是當下一個緊迫的難題。

除此以外,對於關於某些型別的資料——特別是“後設資料”(“metadata”)或是較通訊及文件內容之外的其自身的傳輸記錄——他們是否應該收到較現在更為周密的隱私保護也是一個同樣重要的問題。“後設資料”是用來描述資料自身特徵的。其中的一個經典例子來自電信行業。過去,電話撥出與結束通話訊號,作為一種後設資料,較通話內容本身,被認為透露了較少的資訊,而被給予了不同的隱私保護等級。如今,隨著大資料的到來,無論是服務商的合約,還是機構出臺的政策都不會對各種型別的資料進行如此簡單的劃分。

雖然專家們在後設資料的隱私保護問題上存在著分歧,但是當下後設資料的敏感性遠超昔日的觀點已得到充分的認可,並進而推動了對有關政策的重新審視。在情報資訊方面,總統已經指示他的情報顧問委員會考慮這個問題,並針對時下關於後設資料與隱私問題的設想做出長期可行性規劃。這篇調查報告建議政府應該將該問題的範圍擴大至情報資訊以外,根據資料與資訊對個體身份與行為的揭露程度制定相應的法律並實施其他保護。

商業資料服務的政府使用

私營部門強大的分析與資料探勘技術不僅僅適用於商業領域。從土地管理到行政優化,各州、地方與聯邦機構購買了大量私人資料庫的訪問許可權以用於合法的公共服務。這些服務的資料來源有時是不對外披露甚至是作為商業專利而受到保護的。一些法律學者與隱私保護倡導者已經對包括執法與情報機構在內的政府部門使用商業資料服務產品的現象表示擔憂。

而財政部一直致力於實施一項計劃,具體包括減少支付中出現的物件錯誤、金額錯誤與缺少相應書面材料等現象,期望通過這些舉措防止聯邦支出過程中出現鋪張浪費與徇私舞弊的行為。為了向聯邦機構提供包括檢查多個資料庫、確定不合格的收款人與防止欺詐或錯誤等功能在內的一站式服務,財政部開發了“不付款”入口網站(“Do Not Pay”portal)。儘管目前其所提供的資料庫均為政府資料庫,財政部預期未來商用資料庫也可通過該網站獲得訪問。

為了協助財政部,國家行政管理與預算局(Office of Management and Budget, OMB)已發行主要指南以確保個人隱私在該專案中得到充分保護。該指南指出商業資料來源“也可能帶來或增加新的個人隱私風險,諸如資料庫提供不準確或過期資訊”。該指南進一步要求所有進入“不付款”入口網站的資料庫在進行審查與批准前需進行為期30天的公示以徵求大眾意見。同時,所有資料庫都必須是該專案中的不可或缺的相關資料,並且要足夠精確以確保資料庫涉及的每個人都受到公平對待,同時還嚴禁涉及任何描述憲法第一修正案保護下的權利行使方式的資訊,除非此類資料的使用是得到有關法規的明確授權的。

鑑於通過商業資訊源可以獲取的個人敏感資訊的範圍越來越大,這項指南是確保政府決策中使用的私營部門資料的隱私得到保護的重要一步。類似的指南需要普及到更廣泛的機構與專案中,使得不論資訊的來源如何,民眾都能從政府處得到應有的保護。

內部威脅與持續性評估

2013 年華盛頓海軍工廠內部發生一起槍擊案,儘管一系列的逮捕行動使當局對與處於特殊公職崗位的員工評定更為頻繁, 作為一名內部合約工人的嫌犯還是通過了祕密的安全調查。這是包括切爾西· 曼寧(Chelsea Manning)維基解密洩密事件、納達爾· 馬里克·哈桑(Nidal Hasan)的福特胡德軍事基地槍擊事件與美國情報史上最嚴重的洩密事件——愛德華· 斯諾登(Edward Snowden)洩露國家安全域性(National Security Agency, NSA)內部檔案事件在內的一系列國家安全檢查的執行者的叛逃或暴力行為中的最新一例。

聯邦政府的僱員與承包商都需根據其風險等級、職位敏感程度與訪問敏感設施或系統的許可權接受相應的不同級別的調查。目前,“絕密”(“top secret”)等級的僱員與承包商每五年需要重新接受調查,而“祕密”(“secret”)等級的調查週期則為十年。相關機構在此之外無法及時獲取僱員新的或值得注意的資訊。

試點方案的實施結果已經證明,綜合適當的官方、商業資料庫與社交媒體的自動稽核機制來確定物件暴力或違規機率是行之有效的,這些“負面資訊”(“derogatory information”)可能會導致相關部門對一位在職人員繼續從事敏感職位的能力產生質疑。以國防部為例,近日其進行了一次名為“自動連續評估系統”(“Automated Continuous Evaluation System”)的試點專案。此次試點專案調查了包括陸軍服役人員、文職僱員與承包商在內的3370名人員,結果其中21.7%的人員被認定在自上次調查以來產生了未曾報告過的負面資訊。其中99名人員在此次試點專案中被發現陷入嚴重的經濟危機、家庭暴力、吸毒或賣淫的指控並最終對他們進行了臨時或永久性撤職。

當局在近日公佈的一份關於人員的崗位合適性與安全性的調查報告中,呼籲在聯邦政府內部擴大持續適應效能力評估的使用範圍。儘管該專案中涉及的具體資訊型別,尤其是來源於社交媒體的資訊仍待確定,當局的調查報告中還是建議將以上措施在各部門及各安全級別中進行普及。

這些改革將會設計一套全新的流程來確保安全調查能夠提高我們的安全程度。隨著當局在聯邦機構中大力推廣跨部門持續性評估,僱員與承包商的隱私也需要得到細緻的考慮。員工在此過程中必須擁有反駁或糾正調查結果中錯誤資訊的能力來拒絕或撤銷安全調查的結果。我們必須確保基於大資料技術的持續評價體系能夠以保護社會大眾安全與確保社會大眾的服務者——聯邦政府中的員工的公民自由與隱私權利的方式進行。

結論

當我們被大資料技術在公共部門引起的種種令人煩惱的問題糾纏不休時,我們很容易忽視這些技術在改善公共服務、促進經濟增長和改善社群健康與安全方面帶來的巨大機遇。這些實實在在的機會必須被置於大資料有關討論的核心位置。

大資料技術擁有巨大的力量,它能使遍及整個政府行為框架的服務條款更加高效,它能夠偵測徇私舞弊與鋪張浪費的行為。不僅如此,大資料技術還能創造全新的價值形態。新型高精度氣候模式資料來源能夠為氣候變化帶來有意義的科學發現;同時,瞭解能源與自然資源的使用方式有助於提高產出、降低能耗。資料的移動、儲存與分析都變得越發高效與有力。以能源部為例,其內部正在開發新型計算機記憶體並設計超級計算機框架,此舉有望產生全新的分析工具,使得大資料革命的突進更為迅猛。

幾乎沒有任何一個政府部門不是為了能更好地服務普通民眾而設立的。大資料革命將不僅僅在已經涉及相關科技的部門與機構進行,它將席捲整個政府。那些以往沒有大範圍使用高階資料分析的部門與機構或許最有可能利用大資料技術為普通民眾提供更好的服務。

大資料能量的釋放將不僅僅停留於聯邦政府,它將同時用於各州與自治市鎮的機構革新。一些城鎮已然成為一批最具創造力的大資料使用者來提供更優質的服務。相關聯邦機構與計劃為城鎮、鄉村提供財務與技術援助來完成市政技術革新以效仿紐約資料分析辦公室與芝加哥智慧資料的成功經驗。

讓大資料技術為社會公眾造福還需要供不應求的技術人才。一份近期關於公共與非盈利部門所具備的吸引與留住技術人才的能力的報告為我們敲響了警鐘。儘管許多年輕技術人員深切關注公共服務並樂於在政府部門工作,但相比之下,私營部門給出的機會是如此地富有吸引力以至於這些技術人員傾向於將他們的大資料才能應用於消費市場而不是公共部門。這意味著作為科技方面的另一投資,聯邦政府必須營造一個更富吸引力的工作文化的氛圍並且移除將部分專家拒之門外的聘用屏障,正是這些專家的創造力與技術上的想象力,將充分激發大資料在政府部門的發展潛力。

私營部門的資料管理

大資料是事關全球經濟的重大技術革新。在接下來兩年中,大資料科技與它的服務市場將會繼續保持增長勢頭。本章將探討大資料是如何讓產品和服務更好地服務於消費者與企業,並提出一些由於一些消費者質疑他們的個人資訊是如何被採集、分析與運用而帶來的挑戰。

奧巴馬政府利用大資料來激發創新、生產力並保護個人隱私的傳統價值觀, 以此來鞏固美國的領導地位。然而,在最近的持續地採集、轉移與重新設計大資料下的資訊結構的同時也引發了關於個人對其私人資料的掌控問題,以及利用大資料確定易受傷害的民眾時所產生的風險的重要問題。在大資料將成為經濟增長與創新的有力驅動力的同時,也存在著一種令人不安的消費者與生產商之間的資訊不對稱的可能性。

大資料對消費者與企業的益處

大資料為消費者與企業都在創造著價值。無論是大型企業還是小型企業,大資料的訪問以及處理資料的工具在都進一步普及,它帶來的益處可以在各個領域都有所體會。在大企業,在投資大資料科技方面有幾個驅動因素:分析運營與交易資料的能力;洞察客戶線上消費行為,給市場帶來新的極其複雜的產品;對組織中的機器與裝置進行更加深入的瞭解。

科技公司利用大資料來分析上百萬的聲音樣本,以提供更精確更可靠的語音介面;銀行利用大資料技術來提升詐騙偵測能力;醫療提供者藉助更精確的資料以改善對患者的治療。大資料被生產商用來提升機器保修管理與裝置監控,同時使物流最優化。零售商同時通過線上與線下的渠道與客戶進行各種各樣的互動,來為後者提供量身打造的建議與最優的價格。

對消費者來說,大資料為影響人們日常生活的產品與服務的增加提供動力,這讓網路安全專家得以保護這個體系並使之安全處理大量的網路與資料應用(從信用卡讀卡機到資料應用),同時用它指明異常與威脅之處。它也使將近 29%的美國人,包括一些沒有銀行賬戶,或正在申請銀行賬戶的人通過使用一些更廣泛的非傳統資訊的方式建立信用資格並獲得信用額度支援的資格,如租金、水電費、移動使用者、保險、兒童保險與學費。

這些新技術嵌入在網路中,高精度感測器等監測裝置現在可以檢測聲音、速度、溫度,甚至一氧化碳水平,並從停車場、學校與公共道路上提取資料,以此來提高能源效率與公共安全。車輛記錄以及行駛範圍與使用狀況的相關報告將為先進的交通系統及其安全性的提升鋪平道路。家電用品現在可以告訴我們什麼時候可以在千里之外減弱我們屋裡的燈光。政策必須在一定程度上適應改變,隨著網路技術的到來,聯邦貿易委員會(Federal Trade Commission, FTC)已經開始制定由物聯網帶來的政策框架的重構問題,續寫他們長期以來保護消費者權益的歷史。

本章接下來的部分將討論網路廣告與資料服務行業,它們都有過使用處於建立已久的監管框架之下的資料集的歷史。

廣告支撐的生態系統

從商業網站建立初期以來,網路廣告一直是網際網路增長的一個重要動力。一項研究估計,廣告支援的網際網路部門涉及美國數百萬的重要職位,其中互動銷售領域每年就為美國貢獻數十億美元的經濟增長份額, 99 它本身一個能讓大資料紮根立足並蓬勃發展的行業。越來越精確的消費者資料包含了:他們在哪?用的是什麼裝置?他們上百種的興趣是什麼?再加上強大的分析,使得廣告商更有效地瞭解客戶需求。昂貴的電視節目空擋和整頁的國家級雜誌上的廣告與精確分割、即時測量的網路廣告相比顯得粗糙不堪。一項研究表明,廣告商願意為針對性強的網路廣告多支付 60%-200%的費用。

消費者獲得了穩定的數字生態系統,得到了一系列的免費內容、產品與服務。網際網路還讓國內與國際的廣告商不僅僅與大公司接觸, 還會使其關注一些小型家庭企業的羽翼未豐的品牌。因此,消費者可以從更好、更實用的廣告中獲得更廣泛的企業資訊。這在市場上最終表現為更有競爭力、更具創新性。

在讓這個生態系統發揮作用的過程中,很多不同的人起到了重要作用,包括消費者、直接參與進來的企業與一系列其它的提供分析或保險類服務或匯出共享資料的經濟實體。在網站的釋出者與付錢在該網站的頁面上顯示自家廣告的廣告商之間,是一批令人眼花繚亂的公司。廣告網路與廣告交換有利於廣告商和出版商之間的交易;廣告內容與廣告活動有相關機構、優化者與媒體來策劃並加以投放。廣告的效果由另一批專業公司來分析與測評的。

總體來說,與消費者直接產生聯絡的公司從消費者處收集資訊,它們被稱為“第一方”(“first parties”),具體包括新聞網站、社交媒體、線上或離線的公司零售商。但如上所述,作為不同業務之間總體關係的一部分,部分公司常以一種彙總或去身份化的形式代表“第一方”處理資料或訪問資料,消費者的資訊因而也可能被間接收集。這些第三方公司包括很多數字生態系統中的“中間玩家”、辦理付款處理的金融交易公司、填寫訂單的公司等其它公司。“第一方”既可以自己使用資料,也可轉售他人以開發廣告或用於其它用途。消費者往往無法理解其自身在這個市場中各個級別下被商品化程度。

消費者與透明度

挑戰十多年來,網路廣告業一直致力於為消費者提供自我監管框架下的選擇自由並提高其透明度。在廣告生態系統的邊緣,消費者可以識別網站的管理者與廣告的釋出者,後者會將相關隱私政策或其他形式的通告送達給消費者告知他們的資訊會被如何使用。在這種自我監管的制度下,當涉及到消費者行為模式與多站點廣告投放時, 公司同意遵循一系列原則以便收集消費者隨著時間推移而產生的行為活動並從多站點的監測中推測消費者偏好。這些原則包括告知使用者自己的資料收集方式;為使用者提供退出某些跟蹤形式的選項;限制敏感資訊的使用,例如:孩子的資訊或醫療、金融資料;要求刪除相關資料或去身份化。

提高透明度與加強線上隱私的技術發展得很慢,並由於各種原因而沒有被消費者廣泛運用。例如在廣告商與釋出商採取的自我監管制度之下,許多線上的基於消費者行為的廣告, 都會包含一個標準化的圖示來表示資訊正在為了廣告定點投放而被採集, 同時也提供了供以消費者取消該資訊採集的網頁連結。根據網路廣告業的資料,這個圖示已經出現在廣告中上十億次,但只有極小部分的使用者使用到它的功能或瞭解它的意義。大型網路公司運營的廣告網站也向使用者提供了詳細的儀表盤,使用者可以在其中看到他們資訊的基本使用狀況,並且給予他們取消該服務的能力,這同樣沒有得到使用者們的關注。有很多相關理論來解釋使用者為什麼不用這些隱私功能。一些人斷言,隱私工具被隱藏起來了或者瀏覽起來太困難。另一些人爭論,接二連三的隱私條款與設定給消費者帶來隱私疲勞,他們必須辛苦地親自做完而不是接受服務。也有可能是因為大部分人在享受可供選擇的免費且功能強大的內容、產品與服務的同時,並不會被個性化的廣告打擾。

當我們為跨平臺資訊收集的發展勢頭與廣告投放日益提升的精確度而歡欣鼓舞時,對消費者透明度與有意義的選擇的威脅也在日益加深。如今即使採用相對而言簡單直接的技術, 使消費者對其瀏覽器與基於瀏覽廣告的目的而訪問的網站間資料流有更大的控制能力,亦即“請勿追蹤”(“Do Not Track”)的瀏覽器設定,也會遇到一些問題,因為防欺詐與網路安全的活動現在都依賴於這些相同的資料流進行追蹤、阻止惡意活動。

“請勿追蹤”的挑戰

“請勿追蹤”的隱私設定的背後意義是提供給消費者一種簡單易行的控制方式以限制對其進行的多網站行為追蹤。一些瀏覽器在預設設定下就阻止第三方 Cookie 的追蹤或使消費者自己能夠選擇這項功能。一些瀏覽器也讓消費者傳送不要跟蹤自己的指示服務訊號。雖然不跟蹤技術相當簡單,但在接受發出“請勿追蹤”訊號的使用者訪問的網站標準上,相關政策已被證明很難達成一致。一些網站自願同意預設的訪問者並同意“請勿追蹤”的要求,但另一些則沒有,或者依然進行區域性追蹤,敷衍著消費者,打擊著隱私倡導者。

一個全球資訊網聯盟的工作組,包括了技術人員、開發人員、廣告業代表與隱私倡導者,三年多來致力於創造一個“請勿追蹤”的訊號實施標準。近日,該工作組釋出了最終候選的“請勿追蹤”技術規範,並將向更大的社群徵求稽核意見。

在此期間,歐盟在 2009 年修訂其電子隱私指令(E-Privacy Directive ),要求在使用使用者的 cookie 與其它線上追蹤裝置時必須得到使用者的允許,除非它們所請求的服務是絕對必要的,例如線上購物車。各地對於該指令的貫徹並不統一。雖然現在很多歐洲國家獲取的 cookie 是得到一次性明確同意的,但這種行為被普遍認為是笨拙的並被批評在某些情況下並未在該指令設想的隱私保護方面給予使用者有意義的選擇權。

雖然不完美,但這些努力仍然表現了對於開發出一種技術手段以允許個人對商業實體獲取並使用其資訊進行控制這一領域日益增強的關注度。

資料服務業

除了主要專注於線上廣告的公司之外,還有其他一系列企業從消費者、公用記錄與其它資料集中提取資訊。資料服務部門有時也被稱為資料經紀人,它包括一些收集多個資訊源資料的企業,它們將資料進行彙總分析,並共享這些資訊以及由其派生出的資訊。通常情況下,這些公司與它們所收集的資訊的使用者之間沒有直接的關係。相反,他們為政府或其它企業提供服務,包括產品營銷、驗證個人資訊、人肉搜尋,或檢測欺詐行為。其中一些公司也有“消費者報告機構”(“consumer reporting agencies”)的具體業務線路,例如為信貸申請、保險、就業醫療提供報告。

從監管的角度看,資料業務分為三大類:

根據《公共信用報告法》(“Fair Credit Reporting Act”, FCRA)規範消費者報告,前者通常儲存資料並將之收集在一個單獨的系統對其進行分析,同時,對在一個分離的系統中出於上述目的的資料行為進行報告,並保證其同時遵循其它資料服務業務的具體規則
風險減輕服務,例如身份驗證、欺詐監測與人肉搜尋或者查詢服務
包括確定潛在消費者、提升廣告推送精度與其它相關服務在內的市場推廣服務
第二章中所討論的《公平信用報告法》(“Fair Credit Reporting Act”, FCRA)向消費者提供了肯定行的權利。提供報告以確定信貸資格、保險、就業的消費者報告機構(“Consumer reporting agencies”),需按照《公平信用報告法》或者《平等信用機會法》的相關規定施行。當有諸如接受被拒絕或是信用成本過高等情況發生時,該機構需要基於相關報告與法律需要告知消費者相關資訊。消費者有權知道他們的檔案與信用評分的狀況,瞭解糾正與刪除不正確資訊的方式。《公平信用報告法》授權信用報告機構在一定時間後刪除負面資訊,例如逾期付款與稅收滯留的記錄將在 7 年後從檔案中刪除,破產的記錄則將在 10 年後被刪除。某些型別的資訊,如種族、性別與宗教,不得納入作為確定資信的因素。

這些法定權利不以風險調控或市場推廣為目的,事實上,資料服務公司可以提供查閱及改正機制來進行消費者的身份認證。在市場推廣方面,一些公司允許消費者選擇刪除其在市場推廣活動中使用的個人資訊。

不受監管的資料代理服務

為了協助市場推廣,資料經紀人可以提供一個人與某一品牌之間的互動、或是他通過各個渠道尋求幫助的從網頁端到社交媒體賬戶到移動終端的資訊資料。資料經紀人通過彙總一個人的購買模式、網站活動、在社交媒體上的活躍方式與他/她和網路廣告間的互動,或者直接的客服記錄資訊,這些資訊將藉由公共記錄資訊或者其它通過商業可以取得的資訊得到進一步的強化。依據這些資訊,資料經紀人能夠描摹出一名顧客的概貌,並進一步對其活動記錄或約定進行監控,以幫助市場推廣人員確定應該何時傳送何種資訊。

這些身份檔案可以是非常詳細的,包含最多上千條資訊,一些大型企業資料對億萬消費者都有相應的身份檔案。他們通過演算法分析這些資訊,對客戶精確分類並輔以描述性的名稱來幫助他們的企業客戶識別人群,從而進行有針對性的廣告投放,一些具體的客戶分類如下:“苦苦掙扎著的少數民族二等市民”(“Ethnic Second-City Strugglers”)、 “一無所有的退休單身漢”(“Retiring on Empty: Singles”)“艱難的開始:年輕的單親父母”(“Tough Start: Young Single Parents”)、“消耗殆盡的信用:一個城市家庭”(“Credit Crunched: City Families” )、“勉強度日的鄉下漢”(“Rural and Barely Making It”),107 這些身份檔案既包括個人的事實性資訊,還含有通過其他資料“模擬”得出的資訊。資料經理人接下來可以出售符合特定標準的消費者“原始名單”(“original lists”),同時他們也可能提供“附加資料”(“data append”)服務,公司可以通過這種方式買到更多特定消費者的資料,進而幫助他們形成更為完善的個人身份資訊並據此保持它們的資訊優勢。

什麼是信用報告機構(Credit Reporting Agency)?

從 18 世紀 90 年代開始,信用報告公司(現在的信用報告機構),已經能收集並報告個人的資訊,並用於決定信貸資格、保險與工作等領域。在一個典型的場景中,信用報告機構收集個人的信用記錄,例如他們是否按時支付賬單,他們所持有的銀行賬戶的類別與時間,他們是否已經是貸款收回的物件,他們是否有顯著的債務。之後該機構使用統計程式將這些資料進行對比,給予具有相似貸款記錄的消費者相應的分數以反映其個人信用:它有多大的可能性按時還貸。這個分數代表著消費者買房買車的能力,抑或是代表著債權人是否可以或是在何種條款下可以向其發放貸款。

雖然這種消費者的精確分析可以帶來許多好處,它同時也代表了私營部門有時會在未經當事人允許的情況下收集資訊並利用演算法來計算個人身份的強大能力。這項大資料技術如果使用不當,可能會對特定的個體產生顯著的不利後果。在 2012 年的隱私報告(“Privacy Report”)中,美國聯邦貿易委員(Federal Trade Commission, FTC)建議在《公共信用報告法》尚未覆蓋的領域中,資料經紀人應該更加透明化;進一步的,根據資料的敏感程度與使用方式,授予消費者對其相關資料的合理的訪問與選擇許可權。

演算法、替代計分和歧視

商業模式與大資料策略,特別是第三方資料服務公司,圍繞著消費者資料的收集與使用,提出瞭如何提高透明度、實施問責制度的重要問題。強大的演算法可以在釋放企業可獲得的資訊的價值的同時,幫助普通消費者,但這樣也會在自動化決策方面引起編碼歧視。在資料訪問途徑的擴大與強大的分析功能的推動下,現在許多產品可以通過不同於法律規範下的傳統信用評級機制對個體進行評分,這些產品試圖地數字化地描述包括消費者的購買力、基於他/她在社交網路上的活躍狀況所判斷出的社交影響力(是他們影響社交圈,還是他們是社交圈的影響者)在內的任何事物。

這些評分也許是為市場目的而產生的,但是它們也可以在個人購買房產、預測職業安全與估計健康程度等方面發揮作用,這就像《公平信用報告法》與《平等信用機會法》監管下的信用指數一樣。而什麼型別的資料包含在評分指標之內、用什麼樣的演算法對個人行為進行歸因等細節都會受企業控制,而不為消費者所知。這意味這些評分無論對於消費者傷害的確認,還是在消費者本人在實際負責的決策鏈條內對於實際發言權的掌握中,都不會帶來有意義的作用。

由於缺乏透明度與可信度,個人幾乎沒有能力來獲取從他們身上直接收集或是經過分析後得到的資訊。在網路公司自願提供個人資料而《公平信用報告法》要求個人資料的規範化的今天,卻遲遲沒有出現一個全方位的入口網站為消費者與資料公司的溝通牽線搭橋。這樣的政策對於那些身份被盜用,出現了一時疏漏的人來說尤為不利,他們的得分會受到影響,這相應地會使其參與經濟活動的能力會受到限制。

演算法是什麼?

簡單來說,演算法是處理資料的一系列的步驟與指示。演算法生成類別並篩選資訊,對資料進行操作,尋找資料間的模式與關係,或者幫助進行資訊分析。演算法的步驟由其作者的知識、動機、側重點與預期產出決定。一個演算法的輸出可能無法顯現出上述任何因素,也不會在它產生的判斷中展現一個錯誤結果或是任意的選擇的概率。人們常說的“學習演算法”(“learning algorithms”),它支撐了從搜尋引擎的結果排序到資料庫的內容過濾等各個方面,它們給每個變數分配不同的權重變數,並最終生成從預測行為到否定機遇等一切結果的決定,這種方式能夠在消除偏見的同時保持科學的客觀性。

考慮上述原因,民權社會所關心的是,這樣的演算法決策在數字經濟中帶來的“底線”問題——在中性演算法的幌子下可能產生的對於社會的最弱勢階層的歧視。近日,一些線下零售商就被發現在同一款商品的銷售商根據演算法推算出的消費者居住地的不同附加了不同的折扣。儘管這些價差可能是由於特定居民區競爭對手的缺少,但事實上,高較之低收入住宅區的人們,收入住宅區的人們通常會享有更高的折扣。

同一商品在不同地區以不同的價格出售有著有完全合法的理由。但是這種細分消費群體的方式對使用者的需求進行如此緊密的劃分以至於讓消費者幾乎無法察覺需要更好的服務,尤其當它涉及到差別定價與其它價格歧視的可能性時。因此,對於演算法驅動的決策是如何擴大社會經濟系統內部物價、服務乃至教育與勞動力配置方面的差距是值得進一步的檢驗的。

結論

廣告支援的網際網路通過提供有用的服務、新聞與娛樂節目,不考慮財務成本地為消費者創造了巨大的價值。更精確地廣告投放能力對公司來說是具有巨大的價值的,它可以有效地提高觀眾購買他們的商品與服務的可能性。然而,大資料在私營部門的使用必須保護社會中的弱勢群體使其免於不公正的對待。演算法在相關資格認定的決策中的廣泛使用必須得到謹慎地監管,否則即使沒有歧視意圖,也有可能產生對於弱勢群體的歧視結果。美國聯邦貿易委員會在相關產業與社會公眾對這個複雜的話題的持續討論上所給予的幫助是值得褒揚的,並應繼續其重點關注資料經紀人這一新興行業的計劃。我們期待著他們將來在這一重要議題方面的精彩表現。為切實增加消費者關於其不規範評分的訪問許可權,尤其是其中更改並禁止其釋出不準確資訊的許可權,相關的工作還需要進行開展。同樣地,在衡量由於使用評分方式或演算法而產生的不良後果方面,我們需要開展更多的研究以進一步瞭解這些工具及將來它們在私營與公共部門的廣泛使用所帶來的影響。

為大資料構建的政策框架

高速發展的今天,資訊時代從根本上重新決定了資料是如何影響人們的日常生活和巨集觀經濟的。全球有超過 6000 多種資料,國際資料的流量具有持續性和多樣性。為了達到更深於以往的層次,政府和企業家開始利用大資料來了解人們的生活,並改進他們的服務。

大資料在社會和經濟的應用中創造了巨大的價值,這對國家來說是非常重要的戰略。科技的創新會給美國的經濟帶來新的活力。隨著時代的來臨,大資料在工業和製造業上將會有更有意義的產業目標,讓工業和經濟上的資訊更為快速地增長。

政府應該用政策來支援大資料技術,機構也必須繼續對公眾公開對資料的研究。聯邦政府也應該投資大資料的技術發展,尤其在教育、醫療和能源方面。在上一個章節提到過的,調整現行政策,讓大資料的某些應用符合公眾利益,如醫療等。大資料的政策框架的制定需要公眾和私營部門的合作,以進一步加快排除識別障礙並進行大資料創新,推動大資料的蓬勃發展。

像產品的其他改革因素一樣,大資料產生的價值對於個人、組織和社會是不同的。雖然它的很多應用是明確有利的,但是它的使用會與個人的隱私以及公平、公正和獨立這些核心價值產生衝突。

技術的啟用使資料的收集更加普遍、有侵略性、有價值。使用新的快取記憶體來收集和匯出資料具有很大的潛在價值,但也難以保持均衡。一些私營和公共機構將有機會獲得更多的資料和更多的資源來進行計算,這也可能增加機構和個人之間的不對等。

政府的職責是使技術的改革能夠被公平地利用於可以產生公眾利益的地方。以下為政策需要探索的四個主要方向:

政府如何利用大資料為公眾產生利益,而非做一些讓公眾無法接受的事情
大資料通過影響核心價值觀,改變消費者組成結構的程度
如何保護公民不被可能用大資料技術的新的形式下歧視
大資料怎樣影響了從 1970 年就開始用的隱私的核心準則,通知和協議
大資料與公民

大資料將加強政府對公共服務的管理,並能夠創造出全新型別的價值,但是這一工具無疑會使政府的權力愈發不受控制。地方警察如今擁有了比冷戰時期更強大的監控設施。新的監控設施被阿里託的法官形象地比喻為管控著生活方方面面的“小警察”,這連同基於演算法的居民調查方式,並據此在調配警力中採用的新型執法技術,引發了大資料技術對憲法第一修正案中所保護的言論自由與結社自由產生的影響的疑問。

當私人檔案大量儲存在家中時,國會通過了許多關於執法監管訪問電子資訊的法律。該儲存通訊法案是 《電子通訊隱私法》 (“Electroni Communications Privacy Act”, ECPA)中的一部分,並闡明瞭取得電子通訊資訊的規則,包括電子郵件和雲服務。 《電子通訊隱私法》最初是在 1986 年通過的,它起到了保護個人通訊儲存私密性的作用。但隨著時間的推移,一些法律已經過時,不能用於評判今天的技術。我們在考慮如何更新法律時,也應該想到未來的很多障礙,包括公民的隱私利益,我們需要執法機構和民事執法機構來保護公民的安全,並執行刑法和民法。電子郵件、簡訊等其他私人數字通訊已成為通訊的主要手段,雲端計算越來越多的被用在私人檔案的儲存,它們應當受到保護。

同樣,許多給予了後設資料的保護措施也隨著電腦,網路,手機和雲端計算的發展而進行調整。沒人能想到現在的我們能夠將以前作為例行公事的數字痕跡還原成個人的隱私資料。如今,後設資料的大多數用途仍然在於“小資料”世界的執法方式上,如確定和呼叫一個犯罪嫌疑人的電話號碼。未來,後設資料作為“大資料”世界的一部分,將會有越來越多的調查涉及到後設資料。從而也引發了一個問題,即我們應該給予它怎樣的保護。現在,書面或口頭的通訊的內容受到了較多的保護,而對於後設資料保護的則相對較少。

儘管政府使用的大資料技術引發了政府的權利如何被監督這一重要的問題,但在大資料背景下,我們可以增強問責制,保護公民的隱私等權利。這些措施包括,在採集或產生的資料時由當局通過複雜方式將資料標籤化,其目的是限制使用者的訪問,跟蹤使用者並瞭解其訪問目的,同時提醒上司資料可能被濫用。所有的這些方法都被部分聯邦政府用在公民權利的保護和規範大資料技術中,以使其被正確的使用,並應用到更多的機構中。總體來說,如果大資料能夠正確使用,它可以增加公民的實質自由和權利,推動公共服務的轉型和改善。

大資料與顧客

大資料的採集和分析技術可以用在社會和經濟中每個部分,並有很多被運用於商業領域。而其運用最廣泛的地方是網路廣告行業,即憑藉人們瀏覽的網頁或者手機記錄的行程而推送的私人服務廣告。另一方面,隨著從現實世界獲得的資料越來越多地被結合在網路活動中,資訊的採集和用途變得十分廣泛,且變化十分迅速。

最終的結果是資料中大量增加了個人私密資訊。這些資訊在各式商業中非常有價值。它們被買賣、交易、銷售,整個行業中都存在著將這些資訊所產生的結論商品化的現象。目前市場上銷售的商品都包含著一些客戶評分,它們描述了客戶的基本情況、習性喜好、社會影響力、理財習慣、金融狀況等,甚至是租戶、工作保障和弱點。雖然有些資料被高度監管著,但其他的用途卻沒有。

將針對性的廣告與消費者在網路和現實世界被跟蹤和提供服務的活動相結合,將會產生了巨大的利益。廣告和市場有效的補貼了網上的許多免費商品,帶動了整個行業的消費應用軟體的發展。正如有人在報告中直接指出:“我們不願意把時間放在網路調查中。”

資料採集中十分重要的一點是線上身份的驗證。資料服務和金融產業採用很多途徑以確保顧客能夠用移動裝置和電腦進行安全的交易。相同的驗證技術可以讓顧客和私營部門交易,也可以讓政府和公民在網上互動交流,輕鬆開啟公共服務的新世界。

但是運用這種方式提供商業服務也會付出代價。組合大量客戶的資料正間接地破壞著法律,聯邦政府的急需新的政策來替換這個模糊的國家標準。在新標準中,若大量的參與者進入到資料的採集、儲存、匯聚和銷售中,這對消費者是沒有好處的。因為一般的消費者不太可能知道資料被哪些範圍內的人採集和持有,這就讓他們很少有機會參與到其資料的準確性和範圍確認中,這限制了他們瞭解這些資訊是如何反饋到演算法,進而決定其客戶體驗和市場準入的。

在考慮什麼樣的政策能夠讓大資料在消費者處蓬勃發展時,有一個尚待解決的重要問題,即如何使用採集到的資訊。一方面,這意味著用大資料來劃分顧客的營銷目的,從而提供更有針對性的時機來使顧客購買商品和接受服務。另一方面,也意味著更為嚴肅地應用資訊來計算消費者獲得住房,醫療保健,信貸,就業,教育的資格。

大資料與歧視

除了創造巨大的社會價值,政府和私營部門在資料的使用中也可能會帶來很多危害。這些危害可以分為有形的物質危害,如財產的損失,和無形的危害,如私人生活被侵犯和名譽受損。研究中最重要的結論就是,大資料造成的損害不僅僅是隱私上的,還有包括對個人和群體的歧視等。這種歧視是非有意的、由於大資料的結構和使用方法而產生的結果,但也是源於一些掠奪弱勢階層的意圖。

一個來自波士頓的例子展現了怎樣在大資料技術的使用中杜絕無意中產生的歧視。該市和波士頓市長辦公室下轄的新型城市機械局 (Mayor’s Office of New Urban Mechanics)合作開發了一款實驗性的應用,115為利用智慧手機的加速計和 GPS 反饋出凹坑等道路情況,並將其報告至城市公共工程局的移動應用程式。這是一個城市利用大眾來改善服務的範例。但這個程式也有一個潛在的問題,即窮人和老人可能沒有智慧手機,且不會下載這個程式。但它可以使用在在比較富裕的城市,以產生引導城市服務的效果。

值得稱道的是,波士頓和坑窪街道(Street Bump)的開發者在推出程式之前就想到了這一點。他們首先平均部署了為整個城市各個區域服務的城市道路視察員,然後為公共提供了額外的資料。這具有防止不平等結果的先見之明,並且得出的資料表明這是值得的。該應用已記錄了 36992 個“坑窪”,來幫助波士頓市民找出比較結實的沒有坑窪的地面。

一些使用者因為驗證了他們的身份,而在和複雜的資料庫資訊互動的時候受到更多的歧視。擁有多個姓氏人或因結婚而改名字的女性通常遇到的錯誤最多。例如,在電子驗證系統中,民權倡導者一直對國土安全部和社會保障局所共同執行的資料庫表示擔心。

電子驗證系統有提供僱主確認新員工是否有資格在美國合法工作的能力的功能。當考慮到這個查詢系統的程式與它所組合的資料來源是在不斷地改變的時候,該系統的絕大多數結果都是能夠及時和準確地提供僱主所僱傭的人是否有權在美國工作的的資訊。定期評估能提高電子驗證系統在表現出不同群體所佔的比例方面的效能。該系統在 2009年的一項評估發現,相比較 2.1%,有權工作但未確認的美國公民佔 0.3%。幾天後,這些工人的身份便被確認了。

國土安全和社會安全部對這個問題相當重視。最近的一項評估程式發現,人們能夠較快地且低錯誤率地驗證他們的工作。五年後,美國公民的首次配比失誤率下降了 60%,非公民則下降了 30%。如果這個問題得不到解決,個人或團體的就業就會出現問題,所以必須糾正大資料系統來做到準確、透明。

這兩個無意間產生歧視的例子說明了檢測結果至關重要的原因。有時大資料技術並沒有表現出歧視,並且應用過程並沒有不公平,但是其整體對大資料的關注和利用則會造成了歧視。

在社會的特定領域,包括就業、信貸、保險、醫療、住房和教育,我們已經採取大量措施強制保持公平性。現行的立法和監管保障應管理個人資料在以上情況下的使用方式。儘管預測演算法被允許在特定的情況下使用,裡面所提供幫助決策的資料也要保持一定的透明度,且能夠被改正。對於就業、信貸、保險等方面的重要決定,顧客有權知道為什麼電腦的決定不同於自身決定, 做這個決定用了哪些資訊。同時,如果該資訊有誤,則需要其可以從根本上被改正。

由於美國曆史上長期存在著歧視問題,所以這些保護措施有必要存在。自 20 世紀初,銀行和貸款人使用位置資料來做出關於個人的假設。但直到 1975 年房屋抵押貸款披露法案簽署成為法律之前,在考慮是否貸款時他們的考慮因素一直是其居住地,而非個人還貸能力,所以個人貸款並不普遍。銀行毫不誇張地“畫著”批註,並在周圍劃定不提供貸款的範圍。這種現象存在了幾十年,特別是對於非裔,拉美裔,亞裔美國人和猶太人,這更是產生歧視問題的工具之一。

社群可以作為種族或民族身份的代理,這會產生新的擔心,即大資料技術可以劃“數字紅線”來區別非預期人群,無論是客戶、僱員、租戶或者有信用的收件人。這份報告中明確發現,大資料提供了歧視和掠奪的新形式。

然而,造成歧視的演算法和數字挖掘技術,同時也可以幫助群體通過鑑別和經驗上證實歧視現象及其危害。 民權團體可以使用大資料這個強大的新工具來要求受到平等的服務和對待。大資料給美國帶來的是增強平等還是加劇不平等,這完全取決於它在這幾年的應用方向,以及現階段法律的保護和法律是如何執行的。

大資料與隱私

以物聯網為工具的大資料打破了許多私人空間。家中的無線網路訊號(WiFi)中可以顯示出屋中的人數及其位置,也可通過採集功耗資料來顯示出你在屋中的移動。 當你走出房間時,線上面部識別技術也可以將你從影像中識別出來。始終開啟的有音訊和視訊介面的可穿戴裝置以及整個物聯網裝置的出現只會產生越來越多的資訊採集量。在合法使用的感測器的海洋中,限制資訊採集是一個巨大的挑戰,幾乎是不可能的。

這種無處不在的資訊採集是由大資料技術本身性質所決定的。無論是產生模擬訊號還是數字訊號,資料都被重複使用著,並且以前所未有方式結合,這便激勵著更多的資料採集。資料的潛在價值推動著“土地戰”,機構的重點也轉向儘可能多的採集和利用資料。公司不斷地發掘他們已有的資料,同時尋找他們需要的資料來提高其市場地位。當今世界,資料儲存的成本已經大幅下降,同時仍具有尚無法預測的未來創新潛力,所以採集儘可能多的資料是至關重要的。

大資料的另一個現實就是,資料一旦被採集,就很難保持提供者的匿名性和隱私性。雖然有研究希望在大資料的採集中模糊個人識別資訊,或重新標識“無名氏”的資訊。融合資料技術集資要比隱私保護技術方便許多。

總之,這些趨勢要求我們關注四十年中,告知與同意框架是如何為隱私保護提供支援的。在結構性過度採集的技術中,重新鑑定要比識別功能更強大,並將重點放在了資訊的採集和儲存上,個人的隱私就沒有那麼受關注了。總統委員會科學技術的顧問說:“告知與同意框架已經被大資料所帶來的正面效益打敗了,大資料所帶來的是新的、並非顯而易見但十分強大的使用價值。

大資料

預測大資料變革的下一篇章

對於現在絕大多數的普通互動來說,告知與同意框架充分保護了隱私。但是總統委員會的科技顧問表示,技術軌跡正在轉向採集、使用和儲存對消費者和個人並沒有直接聯絡的資料上來 122。假若該框架被違背,比如由我們的家庭裝置採集的資料,我們則需要重新關注資料的使用,這一政策轉向正在被專家、學者廣泛討論 123。資料的使用情況是極為重要的,它對社會有利有弊,如“雙刃劍”一般。

負責任地使用政策框架會帶來許多潛在優勢。將責任從個人轉移到採集、儲存和使用資料的實體,由於個人在目前市場中的位置,他們並不能很好地理解和抗爭告知和同意框架。關注於使用責任制,也可以使資料的採集者和使用者對資料的管理及其可能產生的危害負責,而不是狹隘地將其責任定義為是否通過正常途徑採集資料。

更多地關注責任並不意味著忽視收集的環境。對資料負責,一方面就是要尊重原始資料的採集。實際上,如同在消費者隱私權法案所闡述的尊重環境原則,這一規則並不令人驚訝。雖然資料的收集不能立即用在就業上,但技術的發展正在向這個方向轉變。先進的資料標記技術可以已採集和使用者授權使用的資訊細節進行編碼,從而使許可使用的資訊可以一直跟隨著資料。若是該技術得到良好發展和廣泛使用,即使不能解決大資料中所有的問題,也可以用於應對一些關鍵挑戰。

或許最為重要的是,為了更負責地使用大資料,我們應該將關注的重點放到如何平衡大資料所帶來的效益和對隱私以及其它由於大資料採集資訊的不可避免性而受到危害的價值。我們是否應該制定規則,不能在任何環境下使用沒有得到使用授權的資料,即只使用得到使用授權的資料?對於醫學研究中為了治癒癌症而使用的資料,和商業營銷中對消費者的廣告定位而使用的資料,我們應該如何區分和界定它們?

正如奧巴馬總統在人權消費者隱私條例草案的釋出會上所說,“儘管我們生活在一個能夠比過去更自由地共享個人資訊的世界,但我們必須堅決否認隱私價值已經過時。”隱私“從一開始就一直是我們的民主制度的心臟,而現在,我們比以往的任何時候更需要它。”這在利用大資料的時代更是如此。

結論與建議

奧巴馬總統在 2014 年 1 月 17 日宣佈的白宮對大資料及隱私的評估報告,設想研究大資料技術更廣泛影響,他認識到,大資料革命廣泛開展於公眾與私營部門之間,其影響需要被一併考慮在當局對訊號情報的審查當中。

90 天裡,白宮大資料工作組著手於研究大資料技術是如何改變政府、商業和社會。我們試圖瞭解大資料將會帶來怎樣的機遇、怎樣的進步,我們希望領會已有科技和遇見不遠的未來。與此同時,總統科學技術顧問委員會對相關技術進行了評估,他們的研究結果支撐了本報告中許多對科技的論斷。

大資料工具為我們提供了驚人、強有力的契機,以解鎖已存在的和新採集的資料、發現先前難以接近和洞察的現象。大資料可以推動醫療、教育、農業、能源使用的發展與突破,並對企業如何組織其供應鏈、監控其裝置提供啟示。大資料具有精簡公共服務供給的潛力,從政府的各個層面提升稅款的利用效率,並大大加強國家安全保障能力。大資料的承諾,需要政府資料被視為一種國家資源,並被負責任地提供給那些能夠通過它創造出社會價值的人。同時,它為塑造下一代計算工具與技術提供機會,這也將反過來進一步地推動創新。

然而,大資料也引發了許多困惑。就其本質而言,許多部署在我們的手機、家中、辦公室、城市路燈柱和屋頂的監測感測技術正在採集越來越多的資訊。分析上的不斷進步激勵我們採集儘可能多的資料,這不僅是為了當下的使用,也是為了日後的應用潛力。從技術角度講,這促使了資料具有功能性上的永恆性和普及性,使我們留下的數字痕跡被採集、分析、組合,揭示出關乎我們自身與生活的數量驚人的事物。這些發展挑戰了人們長期以來的隱私觀念,引發了“告知與許可”框架下,使用者對被採集資料的初始許可權的質疑。然而,這些趨勢將不會阻止我們創造途徑使人們參與到對其資訊的處理和管理中去。

這份評估報告的重要發現之一為,在大資料被用來造福社會的同時,也有可能被用來製造社會危害。縱使在並非有意歧視的情況下,大資料的使用仍然可能導致有失公正的結果。微小的偏見具有潛在的積累性,可能給某些弱勢群體帶來大範圍的結果影響。社會必須採取措施以防止這些潛在危害,無論是公民與政府、消費者和公司或是員工與企業之間,都應保持權力在個人與機構間的適當平衡。

大資料變革正處於其最初階段。我們需要數年才能理解其完整的技術內涵、其對健康、教育、經濟的強化作用,及更為關鍵的是,它對美國核心價值觀的影響,包括隱私權、非歧視、自我決定權。

即使是在當下大資料變革的早期,本評估報告的作者仍認為重要的結論已然出現,即大資料可以從多個領域的層面告知當局者該如何邁出下一步。特別是以下五個方面,它們將引發美國關於在大資料世界如何最大化利益和最小化危害的全民討論。

保護個人隱私的價值:在美國以及全球協作的隱私保護體系中,通過在市場上對個人資訊的保護來維護個人隱私的價值
穩定/持續負責的教育:要認識到學校(尤其是 K-12)是使用大資料以提升學習機會的重要領域,同時也要對個人資料的使用進行保護,強化數位素養和技術
大資料與歧視:防止大資料使用過程中可能帶來的新的歧視方式
執法和安全保障:在執法過程、公共安全、國家安全中,確保大資料的合理負責使用
資料公共資源化:將資料作為公共資源,用於提升公共服務,投資於能夠推動大資料革命的科學研究
政策建議

本評估報告還指出了六條值得政府及時關注並制定相應政策的建議,分別為:

改進消費者隱私權力法案:商務部應當採取諮詢手段,來徵求利益相關者與公眾對大資料發展及其是如何影響消費者隱私權法案的意見,然後制定立法文字草案供利益相關者審議,並向國會提交
通過關於國家資料外洩的立法:國會應當通過立法,沿襲當局 2011 年 5月的網路安全立法建議,制定一套國家統一資料外洩標準
將隱私保護擴充套件至非美籍人士:管理和預算辦公室應與各部門和機構協作,在可行領域將 1974 年隱私法應用於非美籍人士,或制定可替代的隱私政策,應用於各種國籍的人士,以對其個人資訊進行合適、有意義的保護
確保對在校學生的資料採集只被用於教育目的:聯邦政府必須通過法規確保學生的資料恰當共享或使用,尤其針對幾種在同一個教育環境下的資料
發展技術以阻止歧視:聯邦政府首席公民權利和消費者保護機構應當發展技術專長,識別通過大資料分析而對受保護階層產生歧視性影響的做法和結果,並制定調查和解決方案
修正電子通訊隱私法:國會應當修正電子通訊隱私法,以確保對線上數字內容的保護標準與現實所提供的相一致,包括去除未讀的或留存一定年限以上的郵件中因超時而產生的差別
保護個人隱私的價值

大資料技術正在推動巨大的創新,同時也產生了新的隱私問題,其影響遠遠超出了當下備受關注的線上廣告問題。這些影響使我們在未來的隱私保護中急需一個更具廣泛性的國家稽核模式,包括 2012 年釋出的政府的消費者隱私權利法案。相對於傳統的告知與同意模式,即專注於採集資料之前獲得的使用者許可,對其進行重新稽核是尤為重要的。雖然在許多情況下,告知與同意仍作為一種基本模式存在,但如今,我們需要做出判斷,在大資料環境下,更側重於資料的使用和重複使用的研究方式是否會成為使隱私權管理更為高效的基礎。或許,建立一種使個體參與到其個人資料採集後的使用和分配問題的機制,將會是更好的授權方法,以使人們能夠從其個人資訊中獲利。隱私保護的方式也必須不斷髮展,以適應大資料所帶來的社會效益。

推進消費者隱私權利法案

正如 2012 年 2 月奧巴馬總統所明確的那樣,消費者權利法案和與消費者隱私相關的藍圖代表了“一種動態模型,使得在新的資訊科技條件下,提供強大隱私保障、推動創新”消費者隱私權利法案為基於公平資訊實物準則。一些隱私專家相信,這些原則在一些細微處有足夠的靈活性以解決和支援資料的新興用途,包括大資料。但其他人對此並不太確信,尤其是技術人員,因為不可否認的是,大資料確實挑戰了當下一些支撐隱私框架的關鍵假設,尤其是在採集和使用上。值得考慮的是,在告知和同意模式的背景下,大資料的發展該如何可行地保護隱私,以及存在哪些實際限制。

建議: 商務部應當立即徵求公眾意見,針對消費者隱私權利法案如何在支援大資料創新的同時,又對其風險作出反應,以及如何負責地使用框架,就像第五章所闡述的那樣,包含在消費者隱私權利法案確立的框架之內。根據評價過程,商務部應當制定立法文字草案供利益相關者審議,並向國會提交。

提高資料服務行業(俗稱為“資料經紀人”)的透明度

消費者有權更清楚地知曉,在與他們進行直接交易的企業以外的第三方資料採集者處,其資料是如何被共享的。這就意味著消費者應當清楚地知道資料採集與再利用的範圍,即參與調解其使用者體驗或從使用者多樣化中採集資訊的企業數量。資料服務行業應該跟隨線上廣告和信貸行業的腳步,建立專門的網站或入口網站,將公司名單及其資料使用方法列於其上,從而為消費者提供途徑,以便他們更好地控制自身資訊的採集和使用,同時也可使消費者對其資料的使用途徑進行自主選擇。

縱使我們越來越關注資料的使用,消費者仍希望藉助於“不追蹤”工具來掌控其資料被採集的時間和方式

由於現在出現了越來越多的記錄個人行動、行為和位置資料的裝置和服務,所以我們極其需要加強隱私保護工具的效能。民意調查顯示,人們對這類工具有十分顯著的需求,政府和私營部門必須繼續發展隱私保護技術,改善對消費者的服務。

衛生保健服務方面,大資料使醫學水平進一步提升、成本進一步降低,故政府應當建立協商程式,評估如何使健康保險流通與責任法案及其它相關的聯邦法律法規能夠更好地適用

在預測、檢查、治療疾病方面重大突破的實現,一方面需要最大限度的公眾政策關注,另一方面,若想挖掘出其全部的潛能,必然少不了醫藥資料隱私體制的實質性的進步,這樣才能使科研人員結合並分析各種生活方式和健康資訊。任何改革還必須考慮,在監管和法律保護下,由健康保險流通和責任法案管轄範圍外的企業組織散佈的大量個人健康資訊。

美國應當引領全球大資料對話,重申政府建立全球協作的隱私框架的承諾

大資料的優勢有賴於全球資訊自由流動。由於這將對不同國家的傳統和法律框架產生影響,故美國應當集結國際合作夥伴參與對話,探討大資料帶來的好處與挑戰。

具體來說,國務院和商務部應積極發展政府間的雙邊合作關係,包括歐盟、亞太經濟合作組織(APEC)、經濟合作與發展組織及其他利益相關者,對現有的及擬議的政策框架應對大資料的方式進行評估。

當局也應努力加強美國與歐盟安全港架構協議,鼓勵更多的國家和公司加入亞太經合組織跨境隱私規則體系,通過努力,使歐洲繫結合作規則體系與亞太經合組織跨境隱私規則體系結盟,促進美國、歐洲和亞洲之間的資料流合作。

美國尊重全球化的個人隱私價值,並應將其體現在處理全體相關人員資料的方式上

因此,美國應擴大對非美籍人士的隱私保護。

建議:管理和預算辦公室應與各部門和機構協作,在可行領域將 1974 年隱私法應用於非美籍人士,或制定可替代的隱私政策,應用於各種國籍人士,以對其個人資訊進行合適、有意義的保護。

數字時代負責任的教育創新

大資料給孩子和青年提供了提升教育經歷的重大機會。大資料與教育的交叉主要在兩個方面。隨著學生開始與教育機構共享資料,他們所期待的是發展知識與技能,而不是被用作建立個人優缺點的檔案,從而對日後產生不良影響。教育機構也處於幫助孩子、青年及成人應對大資料世界的特殊位置。

在提升教育創新中應確保資料保護

隨著網路裝置的發展,個人學習變得越來越普遍,提升教育有賴於大資料的發展。接下來的五年,在總統的連線教育倡議下,科技裝置將大量走進美國教室,具有加強教課與學習的極大潛力,特別是對於弱勢群體。以網路為基礎的教育工具和軟體使教育技術和商業的重複與創新成為可能。無論是在教室內還是教室外,這些裝置中都已被部署了強大的學生隱私安全保護系統。家庭教育權和隱私權法案以及兒童線上隱私權保護法案提供了聯邦監管框架,來保護學生的隱私,但是前者制定於網路普及前,後者則制定於智慧手機、平板電腦、應用軟體、雲端計算和大資料產生之前。學生及其家屬需要強勁的保護手段來應對當下出現的威脅,但同時,他們也應當獲得途徑來學習科技帶來的益處,以保證學生能夠充分發揮潛能。

建議: 聯邦政府應確保學校採集的資料是用於教育用途,並繼續支援投資和創新,以提高整個學校的績效水平。為了促進創新。學校應當探討如何在現代化背景下實施家庭教育權和隱私權法案以及兒童線上隱私權保護法案的聯邦監管框架,以確保兩個相輔相成的目標: (1)確保學生的資料適當共享或使用,尤其針對幾種在同一個教育環境下的資料, (2)確保教育科技中的創新,包括新的方法和商業模型,有足夠的機會蓬勃發展。

數位素養是 21 世紀的重要技能

為了確保各年齡層的學生、公民和消費者在資料使用中有權充分保護自己,以防資料濫用,對於他們來說,順暢地理解資料被採集和共享的方式、演算法被採用的方式和目的,以及他們可以使用什麼樣的工具和技術來保護自己尤為重要。即使這些技能將不會取代監管保護方式,增加數位素養也可以使人們更好地在一個充斥著大資料的世界中生活。數位素養,即理解個人資料是如何被手機共享和使用,應當被看做 K-12 教育中的關鍵技能,並融入標準課程中。

大資料與歧視

自動化決策技術是不透明的,基本無法被普通人應用。然而,他們正在承擔越來越重要的作用,並在有關個人獲得醫療、教育、就業、信貸、商品和服務環境中被使用。環境和技術的結合造成了許多困難,即如何確保發現、判斷和糾正在自動化決策過程中有意或無意產生的歧視效應。我們必須開展關於大資料、歧視、公民自由的全國對話。

聯邦政府必須關注大資料技術,避免與國家法律和價值觀不符的歧視的產生潛力

建議:聯邦政府的首席公民權利和消費者保護機構,包括司法部、聯邦貿易委員會、消費者金融保護局和公平就業機會委員會,應當擴大技術專長,來識別對受保護階級有歧視性影響的大資料分析所促進的做法和結果,並制定計劃,調查和解決違反法律的此類事件,在評估和解決潛在問題時,這些機構可能會考慮資料的分類、採集背景,以及對某些特別值得關注的群體,如殘疾人的基因組資訊。

消費者期望於有權知道,他們所接受的商品和服務的價格是否與其它的有系統性的不同

令消費者難以置信的是,呈現給他們的資料和演算法作為全部引數,塑造了他們的線上和線下生活。儘管如此,由於消費者的體驗是基於其個人資訊,所以一定的透明度也是適宜的,特別在不同公司給消費者提供不同的定價時,例如消費者利用網路搜尋引擎或大型零售商的網上商店比較機票價格。經濟顧問委員會應評估線上和線下不同定價的演變方式,評估市場有效運作的意義,思考是否需要保證消費者公平的新途徑。

資料分析可被用於保障公民自由

同樣的大資料技術,在導致歧視的同時,也可以幫助群體行使其權力。相關應用和資料探勘功能可以識別以及經驗性地證實的歧視現象,並揭示其造成的危害。聯邦政府民權辦公室和民權社會,應採用新且有力的大資料手段,以確保最易受攻擊的群體能夠得到公正的對待。

為了樹立公民意識,聯邦政府消費者保護和技術機構應當組織公開研討會、落實問題報告,其應當針對的問題有,這些新技術潛在的歧視性做法,差別定價的做法,和在信貸、就業、教育、住房和醫療保健上使用代理評價重複規範評分的做法。

執法與安全保護

大資料的合法使用可以使社群更安全,使國家的基礎架構更具彈性,並加強國家安全。十分關鍵的是,國家安全、國土安全、執法和情報機構應當積極嘗試和合法運用大資料技術,同時也堅持全面問責制,進行監督並保證隱私。

應當重新修訂電子通訊隱私法

建議:國會應當修正電子通訊隱私法,以確保對線上數字內容的保護標準與現實所提供的相一致,包括去除未讀的或留存一定年限以上的郵件中因過時而產生的差別。

執法中使用的預測分析應當繼續受到仔細的政策審查

至關重要的是,在預測刑事調查的情況外,法律管理下的大資料分析應當被適當部署對個人隱私和公民自由的保護系統。無罪推定是美國刑事司法系統遵循的基本原則。針對言論和社交自由的憲法權利,為防止寒蟬效益,公眾必須瞭解這些專案的存在、操作方式及功效。

聯邦機構中隱私和資料方面的專家應為國家、地方和其他聯邦執法機構提供技術援助,以探索並部署大資料技術

執法機關應繼續研究如何培養大資料監控技術的聯邦撥款專案,使其能夠被負責任地使用,同時研究在國家和地方建立全國大資料試點專案登記處的潛在效用,以跟蹤、識別和推廣最佳途徑。針對未來一年有助於推進隱私社會的隱私保護技術的發展,聯邦政府機構與技術領導者、專家也應當報告其進度。

評估政府對合法獲取的商業資料的使用,以確保其與我們的價值觀一致

在瞭解長期的基本商業記錄對搜尋犯罪嫌疑人的作用時,聯邦政府應該承擔對美國公民市售資料用途的審查,注重僱傭大資料技術服務的運用,並確保它們與適當的監督結合,以保護公民隱私和自由。

聯邦政府應當實施最佳途徑,建立制度協議與機制,以幫助確保資料的使用控制和安全儲存

美國國土安全部、情報界和國防部領導者正在制定隱私保護和個人資訊處理政策。其它公共部門機構應當評估這些做法,特別是通過資料標記來強制限制使用、控制訪問政策和定格的審計,是否能整合到他們的資料庫和資料處理中,向其中融入對隱私、公民權利和公民自由的保護策略。

利用大資料分析和資訊共享來加強網路安全保護驅動經濟發展的網路、支援公共安全和保護國家安全,這已經成為關鍵的國土安全使命。聯邦政府與私營部門合作伙伴計劃中,在試點專案和研究中使用大資料,以保證網路安全,並保護關鍵基礎設施,加強我們的應變能力和網路防禦能力,特別是在越來越多網路威脅資料被共享的情況下。當局繼續支援立法保護隱私,為公司特殊威脅資料共享提供目標責任保護,並在此基礎上適當保護其網路。與此同時,政府將繼續採取行政措施,增加獎勵,減少資料共享和分析的屏障,幫助公眾和私營部門預防和應對網路威脅。

資料公共資源化

政府資料是國家資源,並應被儘可能廣泛地向公眾提供資料,以提高政府效率,確保政府問責制,推動經濟繁榮和社會良好,同時也要繼續保護個人隱私、商業機密和國家安全。這意味著尋找新的機會使政府釋放大量資料,並確保所有機構最大限度地使用Data.gov,即聯邦資料的工具與資源儲存庫。大資料可以改善公共服務,帶來對政策制定的新認知,從政府的各個層面提升稅款的利用效率。

政府資料應當被準確、安全地儲存,並最大程度地開放訪問政府資料,尤其是統計和人口普查,由於其高精確性、高可靠性和高保密性而區別於其他資料。類似的,如今的“我的資料”倡議使美國人可以通過有效的方式輕鬆安全地訪問個人資料,其格式構成的模型使得個人資料擁有可獲得性,這應當被儘可能廣泛地應用於政府中。

所有部門和機構應其高階隱私官員和公民自由官員密切配合,評估他們是如何駕馭大資料,從而最好地執行任務

過去未大範圍採用過高階資料分析工具的部門和機構應當最大程度地理解:大資料革命對他們及其服務的公民意味著什麼。他們應該嘗試開展試點專案,發展內部人才,擴大研究和開發。各機構應從最早階段就開始與他們的隱私和公民自由官員協商建立這些專案。

特別的,大資料分析為美國人民在提供政府服務時增加價值和績效帶來了重要機會。大資料也有發現和報告浪費、欺詐和濫用的強大力量,從而能夠節省稅款、提高公信度。大資料也可以幫助進一步識別出政府高績效的做法,從而這些做法可以重複應用於類似的機構和程式,並可能提供新的使公共部門管理有效化的方式。

我們應在隱私保護技術的研究和開發上大幅增加投資,鼓勵電腦科學和數學、社會科學、通訊和法律等學科的跨領域研究

政府應致力於引導研究,以確定在哪些領域中,大資料分析可以給美國人民的生活水平帶來最顯著提升,同時鼓勵資料學家進一步發展社會、倫理和政策知識。為此,科學與技術政策辦公室應在與整個機構中專家的合作中,致力於明確可以帶來顯著公共利益的領域,例如城市資訊學,並對可以使其受到適當關注、獲取適當資源的方式進行評估。

關注有發展前景的基本領域,例如資料來源、去身份和加密等,但同時,我們也應當鼓勵關注那些可以迅速應用到消費者中的市場型新科技工具。由於我們需要越來越多的從事資料方向的幹部和能將關鍵策略轉變為技術基礎設施的社會科學家,我們將資金投入到一些研究中,例如針對從社會倫理角度傳授科學技術知識的科學技術研究,對資料科學家和工程師進行模組化教學,使他們瞭解這份事業所具有的更廣闊的社會影響力。

譯者資訊與版權說明

翻譯人員:

給總統的一封信 阮海博 (浙江大學電腦科學與技術 2012 級本科生)
第一章 陳新 (浙江大學歷史學系教授)
邱桐 (浙江大學工業工程 2013 級本科生)
第二章 李政毅 (浙江大學社會學 2012 級本科生)
第三章 鄢龍 (浙江大學金融學 2012 級本科生)
第四章 陳曼珂 (浙江大學會計學 2012 級本科生)
第五章 付文鑫 (浙江大學機械工程及其自動化 2012 級本科生)
第六章 王依琪 (浙江大學環境工程 2012 級本科生)

校對人:陳曼珂、阮海博、王依琪、鄢龍

統稿人:鄢龍

版權顧問:趙越(華東政法大學智慧財產權專業 2010 級本科生)

本譯文版權歸譯者所有,僅供網友學習、參考,不得作商業用途,一經發現,版權人保留追訴權利。網路使用請註明來源“浙江大學歷史資料研究小組”。

聯絡人:鄢龍,電話 18868111770,電子郵件:yourslongly@outlook.com ;王依琪,電話 15967171025,電子郵件:wyq0717@gmail.com 。

End.

特別宣告:本網站轉載此文只為資料參考和分享,內容不代表本網站的態度和立場。翻譯來源於浙江大學歷史資料研究小組。