被遺忘權的崩塌:當AI可以通過你的朋友瞭解你

naojiti發表於2019-01-28

在智慧推薦無處不在的今天,相信我們每個人都或多或少患上了隱私焦慮症。平時和朋友說話聊天都疑神疑鬼覺得手機在偷聽,很多人也因此越來越不喜歡在社交媒體上釋出資訊了。

不說、不轉、不點贊,看起來似乎是非常合理的“隱私三連”——如果我不留下任何資料痕跡,機器學習自然也沒辦法對我的喜好進行分析了。

可事實真的如此嗎?

精準預測你的社交媒體行為,只需要9位互關好友

最近在《自然》雜誌中,來自佛蒙特大學的資料科學家們公佈了這樣一項研究,在推特上無需檢視個人使用者資料,而是通過對個人使用者互相關注好友的推文資料分析,就能實現對個人使用者社交媒體行為的精準預測。

換句話說,就算你刪號退網,機器學習仍然可以通過你的好友列表來分析出你的使用者畫像。

在研究中,研究人員收集了一萬三千餘個推特賬號,這些使用者分別都擁有150-200個好友。在好友中找到互動率最高的前9位並進行分組,將使用者好友組中好友的行為資料以時間為線索進行分析。

資料科學家們通過研究得出,一般社交媒體使用者,只要不是專注某一領域的KOL,通常在社交媒體上使用的詞彙不超過5000個。如果用中文來比喻,大概就是“哈哈哈哈”“不轉不是中國人”“我家哥哥太帥了吧”這些常規詞彙。

而通過對使用者好友的常用詞分析,基本可以圈定該使用者的興趣範圍。研究者提到,很多專注於某一領域的使用者(比如政治),其實在社交媒體用詞量上只有幾百個單詞。在興趣範圍內的詞彙量中引入代表個人行為變化的熵率,再與建立在時間序列上的文字生成演算法相結合,就能夠實現通過社交關係來預測個人社交媒體行為。

而當好友組中的好友數量越多時,這種預測也越準確。但值得注意的是,一旦好友數量超過150人,預測的準確率反而會下降——因為好友數量過多時往往雙方的關聯度降低,脫離了一個本來的興趣圈子,在行為上也很難形成對映關係。

也就是說,如果你微博好友都是戰狼團,那麼你也會和大家一起“雖遠必誅”,如果你的微博是追星陣地,那麼你也會深夜和姐妹們一起為idol打榜。一個人的網友圈子,決定了他的認知範圍,也進而使得其行為可以被預測。

看來,人類的本質是復讀機無誤了。

圈層豎立起高牆,隱私在內部塌陷

這一研究雖然展示了自然語言處理能力的進步,卻也證實了兩個我們擔憂已久的問題。

首先,通過推特好友的言行對於使用者的言行進行精準推測,無疑是為資訊繭房理論投了一張成立票。

自從桑斯坦的資訊繭房假設被傳播開以來,關於這一假設的認可程度其實長期處於不穩定的狀態之下。尤其是近些年來社交媒體和個性化資訊流的火熱,更讓很多人常常把資訊繭房四字掛在嘴邊。支持者認為演算法推薦會源源不斷的把符合使用者興趣的資訊推薦給使用者,最終導致使用者認知閉塞,缺乏對世界的完整化理解。

其反對者認為,人天生就會對所接受的資訊表現出興趣趨向,即使是報紙和書本時代,人們也會選擇自己感興趣的內容來閱讀。而這種選擇並不會形成所謂“資訊傳播阻礙”“對外部世界的認知疏離”,所謂的繭房假說也不能成立了。

可佛蒙特大學在這次研究中提出了觀點——人之於資訊,很多時候不僅是興趣選擇,還存有社交選擇。社交媒體上朋友的興趣、語言風格、活躍時間與個人使用者社交媒體行為存在的強關聯,意味著一個人資訊繭房是通過社交圈層搭建起來的,而這種繭房已經直接作用在使用者的表達能力上,例如在研究中出現的一個有趣現象,越是對政治話題感興趣的使用者,在社交媒體上發言的詞彙量越匱乏。某種程度上,這證明了資訊繭房下的傳播圈層障礙越來越明顯,長期浸淫在某一圈層的人,不僅僅失去了接受其他圈層資訊的機會,也失去了接受其他圈層資訊的能力。

更可怕的是,通過互關好友摸清使用者喜好這種技術,終於讓我們失去了個人隱私的最後一片領地。

奧地利法學家舍恩伯格曾經出版過一本名為《刪除:忘記是在數字時代的美德》的書,講述的是個人資訊在網際網路上的被遺忘權,那些關於個人使用者的資訊,個人使用者應有權要求網站和平臺從伺服器端徹底刪除或者限制訪問。

一開始人們對被遺忘權的要求還只停留在強制拍賣、失信名單這一類個人負面資訊上,但很快相關需求開始變得越來越廣泛。例如2013年左右曾經很流行一種工具,可以根據使用者主頁連結找到那些曾經被使用者刪除微博、豆瓣等資訊,當時被很多人用來進行人肉搜尋,以至於再次激起了人們對於被遺忘權的強烈需求。

到今天被遺忘權已經被寫進歐盟的GDPR,登出賬號、刪除一切已經成了我們捍衛網路隱私的最後一條防線。可“好友演算法”的出現意味著,只要對方能找到你的好友關係,即使你刪去了一切內容,依然可以會將自己赤裸的展示在演算法面前。

這也讓Facebook這樣靠探知使用者資訊盈利的企業可以在倫理上鑽空子——假如一位使用者堅持不給社交媒體授權資料許可權,但他的社交媒體好友都向社交媒體開放了許可權,社交媒體平臺很可能會“合理合法地”繞過使用者本身獲取使用者資訊。

自我的副本

世界上第一個發現天然放射性現象的物理學家,來自法國貝克勒爾在被放射性物質奪走生命時,恐怕也從為想到過這項讓自己奉獻了一生的技術,未來會演變成奪走了無數人生命的核彈。

世事總是如此,那個無意中開啟潘多拉魔盒的人,往往看不到被魔盒改變過的世界的模樣。

這種社交媒體預測演算法也是一樣,在同樣的邏輯下我們幾乎可以想象到:是否通過對一個主婦購物資料的分析,也能獲知她丈夫刮鬍子的頻率?是否在職場社交軟體上簡單分析,就能獲知一個人的工作能力和薪資水平?

在數字化生存和AI的共同作用下,“自我”的所有權已經形成副本並被無限分割,散落在那些一切與我們產生關聯的地方——我們的朋友的喜好、我們家人的行為、我們愛人的一舉一動……以至於從這些關聯之中,也能挖掘出得碎片,還原出我們的自我。

面對這種可能,我們很難現在就為其下一個“好或壞”的定論。但這一次,讓法律法規走在技術前面,或許是個不錯的選擇。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2565093/,如需轉載,請註明出處,否則將追究法律責任。

相關文章