Mozilla研究:瀏覽歷史非常獨特,足以可靠地識別使用者

Brewin發表於2020-09-25

原文地址:Mozilla research: Browsing histories are unique enough to reliably identify users

線上廣告商不需要我們訪問的網站的龐大列表。我們最喜歡的網站中只有50-150個就足夠了。

最近由三名Mozilla員工發表的一項的研究關注了瀏覽歷史記錄所提供的隱私。

他們的研究結果表明,大多數使用者都有獨特的網路瀏覽習慣,使得線上廣告商能夠建立準確的個人資料。

這些配置檔案可以用來跟蹤和重新識別不同的使用者資料集中的使用者,這些資料集甚至包含使用者瀏覽歷史的小樣本。

實際上,這項研究消除了一個網路神話,即瀏覽歷史,即使是匿名的歷史,對線上廣告商也沒有用處。事實上,這項研究表明,即使是一個由50到150個使用者最喜歡和最常訪問的域名組成的小名單也能讓廣告商建立一個獨特的跟蹤檔案。

2012年的類似研究

Mozilla的研究論文名為“回答:為什麼我們仍然不能在和平中瀏覽:論網路瀏覽歷史的唯一性和可再識別性”[PDF]。

這篇論文在本月早些時候的USENIX安全會議上發表,是2012年發表的另一項學術研究的後續。

這項研究是當時分析使用者隱私的最大專案之一,也是研究團隊的一項重大任務,該研究團隊收集了38萬多名網際網路使用者的瀏覽器歷史資料。

在2009年1月到2011年5月期間,研究人員讓使用者訪問一個線上測試站點,在那裡他們使用一些聰明的CSS程式碼來確定使用者訪問過的預定義列表中的哪些網站。

2012年的研究發現,97%的訪問過這個測試站點的使用者在他們的瀏覽歷史中有一個唯一的站點列表,這使得瀏覽器歷史成為一個可靠的使用者指紋識別載體。

此外,當要求使用者再次訪問測試站點時,研究人員表示,他們能夠根據第一次訪問時的瀏覽歷史記錄重新識別使用者。

當研究人員檢視50個使用者最流行的域名的瀏覽歷史資料集時,準確率為38%,當他們分析500個域名的資料集時,準確率為70%。

Mozilla 2020論文

但去年,Mozilla的研究人員希望重新評估瀏覽歷史是否仍然是有效的指紋識別載體,以及2012年的研究是否仍然成立。

這項新實驗於2019年7月16日至8月13日期間進行,當時Mozilla鼓勵Firefox使用者參與這項實驗。

Mozilla的研究人員表示,超過52000名使用者同意參與,並同意提供匿名瀏覽資料。

然而,這一次,由於資料是從Firefox本身收集的,而不是透過執行長時間CSS測試的網頁收集的,因此資料更加準確可靠。此外,Mozilla研究人員收集的資料也與當今線上分析公司收集的關於使用者的資料型別相同,無論是透過資料合作伙伴關係、移動應用程式、線上廣告或其他機制。

與之前一樣,資料收集分兩個階段進行,在兩週內,使用者在第一週共享瀏覽歷史,然後在第二週再次共享,這樣Mozilla的研究人員就可以重新識別使用者了。

Mozilla團隊表示,他們總共收集了660000個獨立域的3500萬個網站訪問量資料。這項研究的發現立即反映了對更高質量資料的獲取。

Mozilla說,他們為這項研究收集的99%的瀏覽資料對每個使用者都是獨一無二的。
這種獨特性使得Mozilla的研究人員在研究的第二週很容易重新識別使用者。

準確性也優於2012年的研究,Mozilla聲稱,對於包含使用者瀏覽歷史的50個域的資料集,其可重新識別率接近50%。當Mozilla的研究人員將瀏覽歷史資料集擴充套件到150個域時,重新識別率增長到了80%以上。

後一項發現表明,分析公司和線上廣告商不需要龐大的瀏覽歷史資料列表來跟蹤使用者,而且每個使用者的瀏覽癖好和他們最喜歡的網站最終都會洩露出去,即使資料是匿名的,網址也會被截斷以刪除使用者名稱,只留下核心域名。

Mozilla團隊的演示影片在這裡提供。

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章