隱私失控的網際網路

李鬆峰發表於2013-03-28

網際網路和Web已經徹底改變了人們收集、儲存和展現資訊的方式。搜尋引擎和資料庫對每個人都具有不可估量的價值。很難想象之前沒有網際網路的時代我們是怎麼過來的。事物都有兩面,現在這樣資料在網上隨意傳播也有問題,尤其是那些我們無意向外人道也的資訊如果傳出去,會令人相當不舒服。

2006年8月,AOL出於好意而公開了一大批查詢日誌樣本,供人研究。這些日誌涉及三個多月以來65萬使用者的2000萬查詢,已經做了匿名處理。因此從理論上講,不存在任何可以用於辨識個人身份的資訊。儘管是善意之舉,但人們也很快就知道了這些日誌在實踐中不會像AOL想象的那樣做到完全匿名。每個使用者在查詢時都會被賦予一個隨機但唯一的識別符號,有了這個識別符號,很容易知道同一個人都查詢過什麼內容。進而,確定少數人的身份也就成為可能。通過搜尋相關性分析暴露出來的搜尋過自己名字、地址、社會保障號碼以及其他個人資訊的人,比AOL認為的多,而且肯定比原始使用者自己希望的多得多。AOL很快從自己網站上刪除了這些日誌,當然已經太晚了。這些資料已經被傳播得滿世界都是了,而且至今你都可以找到它,甚至還有幫你分析它的一些工具。

查詢日誌對經營企業和改進服務有價值,但很明顯其中可能包含敏感的個人資訊。谷歌、雅虎、微軟這些提供搜尋服務的公司會把查詢日誌保留多長時間?這裡有個矛盾:考慮個人隱私則保留的時間應該短,而考慮執法目的則保留的時間應該長。為了達到一定的匿名程度,這些公司內部該對資料進行怎樣的處理?雖然他們全都聲稱會刪除每條查詢對應IP的部分資訊(一般是最右邊那一位元組),但僅僅如此似乎還不夠,還達不到反識別(de-identify)使用者的目的。政府機關查詢這些資訊的許可權有多大?打一次官司會查詢多少資訊?所有這些問題都沒有明確的答案。AOL公佈的查詢日誌中有些是很嚇人的,比如有人查詢怎麼殺死自己的配偶。因此,有限度地向司法機關開放這些資料是合理的,但問題是這個限度應該放多大,很難說清楚。

AOL事件揭示了一個廣泛存在的問題,即真正做到資料匿名化是非常困難的。刪除身份識別資訊可以降低識別度,單就特定的資料而言,確實無法定位到使用者,因此可以說它是無害的。但現實當中資訊的來源是多方面的,把多個來源的資訊組合起來則很可能挖掘出更多身份特徵。而且某些來源的資訊甚至連提供者自己都不知道,這些資訊將來也未必還能找得到。舉個例子,假設搜尋引擎會刪除每條查詢對應IP的最右邊一個位元組,但根據剩下的三個位元組仍然可知它來自普林斯頓大學電腦科學系。如果再結合普林斯頓日誌中我什麼時候使用過該IP上網的記錄,那就可以把具體的查詢跟我掛上鉤了。

有關這種再識別(re-identify)問題,下面可以給大家講一個鮮活的案例。1997年,當時在MIT讀博士的拉坦婭·斯威尼(Latanya Sweeney)分析了馬薩諸塞州135 000名僱員的體檢記錄,這些記錄都做了反識別處理。資料來源是該州的保險委員會,可用於研究目的,甚至被賣給私人公司。每條體檢記錄中除了大量其他資訊外,都包括生日、性別和郵政編碼。斯威尼發現有6個人的生日都是1945年7月31日,其中3個男性,而只有1人住在坎布里奇。把這些資訊和公開的選民登記名單一對照,她就知道了這個人是當時的州長威廉·韋爾德(William Weld)。

匿名處理資料與混淆保證安全(前一章剛介紹過)多多少少有點類似之處。這兩者都是基於沒有足夠資訊無法解密資料的考慮。問題是,這兩種情況下敵人掌握的資訊,很可能比我們想象得多。而且就算眼下他們不知道,將來也有可能知道。

enter image description here

不久前,我在網上看到一篇文章,大概是這麼寫的:“有一次面試,他們問了一些我簡歷上沒寫的問題。原來他們看了我的Facebook主頁,這太讓人意外了。Facebook上可都是我個人隱私啊,跟他們有什麼關係!”這個人很天真也很可愛,但我想很多Facebook使用者在這種情況下可能都會有一種被冒犯的感覺,儘管他們清楚地知道公司人力資源部和大學招生辦會例行通過搜尋引擎、社交網站及其他類似工具來了解申請人的更多資訊。在美國,面試時問一個人的民族、宗教信仰、性取向,以及很多其他關乎個人的問題都是非法的。但這些問題通過社交網站和搜尋引擎都可以不費吹灰之力就能找到答案。

最重要的是要知道,跟蹤我們瀏覽的網站只是收集我們資訊的諸多方式中的一種。毋庸置疑,隨著社交網站的流行,為了娛樂和與其他人聯絡,我們自願放棄了很多個人隱私。

社交網站存在隱私問題是毫無疑義的,因為它們會收集註冊使用者的大量資訊,而且是通過把這些資訊賣給廣告客戶來賺錢。儘管出現的時間不長,但它們的使用者規模增長迅猛。Facebook成立於2004年,現在據說已經有了7.5億使用者,相當於全世界人口的十分之一。如此之快的增長速度,不可能有太多時間考慮隱私政策,也不可能從容不迫地開發出穩定可靠的計算機程式。於是,每個社交網站都面臨著因功能不完善而洩露使用者隱私、使用者不清楚該如何選擇自己的隱私設定(變得太快)、軟體出錯,以及由於系統固有問題而暴露資料等問題。

作為最大也最成功的社交網站,Facebook的問題也最明顯。Facebook給第三方提供了API,以方便編寫Facebook使用者可以使用的應用。但這些API有時候會違背公司隱私政策透露一些隱私資訊。當然,並非只有Facebook一家如此。做地理定位服務的Foursquare會在手機上顯示使用者的位置,能夠為找朋友和基於位置的遊戲提供方便。在知道潛在使用者位置的情況下,定向廣告的效果特別好。如果你走到一家餐館的門口,恰好在手機上看到關於這家餐館的報導,那你很可能就會推門進去體驗一下。雖然讓朋友知道你在哪沒什麼問題,但把自己的位置昭告天下則並非明智之舉。比如,有人做了一個示範性的網站叫“來搶劫我吧”(Please Rob Me)。該網站根據Foursquare使用者在Twitter上發表的微博可以推斷出他們不在家,這就為入室行竊提供了機會。

“位置隱私”——保證自己位置資訊保密的權利——在我們日常使用的很多系統中並沒有得到保障,比如信用卡支付系統、高速公路和公交車刷卡收費系統,當然還有手機網路。要想讓人對你都去過哪兒一點都不知情是越來越困難。手機應用經常會要求訪問你手機知道的關於你的所有資訊,包括通話記錄、本地儲存的資訊、當前位置,等等。在我看來,這些應用想知道的已經超出了它們應該知道的。

社交網站和其他一些站點甚至會洩漏非使用者的個人資訊。舉個例子,假如一位好心的朋友發給我一份電子請柬(e-vite),請我去參加某個聚會。就算我不答覆這個邀請,也沒有允許別人使用我的電子郵件地址,運營該邀請服務的公司都能得到我準確的電子郵件地址。如果一位朋友從他的Gmail或雅虎賬號給我發了封郵件,那麼我的郵件地址就在沒得我許可的情況下被別人知道了。如果一位朋友在一張照片中給我打上標籤,然後將它釋出到Facebook或Flickr(或兩個地方都發),那我的隱私就在沒有我同意的情況下暴露了。Facebook有影像識別功能,因而那位朋友在給我加標籤時會更方便,而且這個操作預設無需經過我這個被標籤人同意。所以說,社交網站很容易根據自己的使用者構建一個交往群體的“社交圖譜”,其中包括被這些使用者牽連進來但並未同意甚至毫不知情的人。在以上幾種情形下,任何人都無法預防此類事件發生,而且在自己的資訊被公開後也沒有辦法把它們刪除。

情報機關早就知道通過流量分析來了解大量內幕訊息,只要知道誰跟誰有聯絡即可,都不用知道當事人說了什麼。同樣,通過人們在社交網站或明或暗的聯絡也可以掌握很多“情報”。比如,2009年兩名MIT學生聲稱可以根據人們在Facebook上朋友的性取向推斷出這些人的性取向。無論這種說法準確與否,但至少說明這種推斷是可行的。可以肯定的是,美國政府早已著手挖掘異議人士在Facebook網頁上的資訊,藉以瞭解還有誰跟他們是一夥的。

出處(也算圖書廣告吧):

本文摘自李鬆峰和徐建剛合譯的圖靈新書《計算機基礎》(D is for Digital)第11章(未經編輯)。本書採用按章釋出的出版模式,全書共12章,基本已經翻譯完畢,目前已經發布到第8章(其他章正在緊鑼密鼓地編輯中),後續幾章很快即可釋出。
電子版熱賣中,質量也有保障,現在購買,立即閱讀

相關文章