我發現我的資料被操縱了……

大資料文摘發表於2017-10-16

我發現我的資料被操縱了……

大資料文摘作品

作者:danah boyd

編譯:糖竹子、白丁、Aileen

索引的完整性不再是決定搜尋結果質量的唯一因素。使用者感興趣的搜尋結果常常淹沒在“垃圾結果”中。


 ---- 引自Sergey Brin 和Larry Page的《解剖谷歌搜尋原理》(1998年4月版)

當前,我們正目睹著一場資料被濫用的大劇。限制資料濫用並且努力解決偏見資料和問題資料,正成為解決科技對社會基石產生影響的重要條件。

簡而言之,我認為大家應該重新考慮,安全、公平到底意味著什麼。本文從三個方向告訴我們,在資料驅動的世界中,我們的資料有可能被如何情況操縱。

操縱資料的原罪者-谷歌

1998年,兩個史丹佛畢業生決心著手解決主流搜尋引擎存在的問題。

Sergey Brin 和 Larry Page合作撰寫了一篇論文,描述他們的網頁排序演算法是怎樣解決搜尋結果中垃圾網頁過多的問題。他們的想法意義非凡,如今被人們認為是Google公司創立的基石。但是這一想法並未阻止人們不斷擾亂自己的網路系統。事實上,谷歌的崛起不過增加了搜尋引擎進一步優化的難度。

我發現我的資料被操縱了……

時光流轉到2003年,當賓夕法尼亞參議員 Rick Santorum 公開將同性戀類比人獸交和戀童癖時,毋庸置疑,LGBT群體被激怒了。媒體Dan Savage呼籲他的讀者們做點什麼以記住這醜陋的時刻。其中一位粉絲建立了一個以Santorum的名字和“肛交”一詞聯合命名的網站。令這位參議員不寒而慄的是,無數公眾參與了將網站連結推送到搜尋引擎首條的行動中。

這種眾包形式的搜尋引擎優化行為被稱作“谷歌爆炸”,一種媒體炒作形式,旨在干擾資料和資訊環境。

我發現我的資料被操縱了……

媒體炒作和網路失真資訊(封面),2017年3月,Jim Cooke繪製的插圖

媒體炒作並不新穎。正如許多人所知,宣傳和社交媒體營銷的界線通常是模糊的。除此以外,那些通過點贊、評論和訂閱量等公共訊號宣傳產品特點的公司都熟知,任何被創造的系統都將成為娛樂、利益、政治、意識形態和權力遊戲的舞臺。甚至連國會現在都在為此鬥爭。

而除了這些已經發生的,我們還正在面臨哪些資料被操縱的情況,以及該如何應對。

我發現我的資料被操縱了……

騙過網路系統

如同搜尋引擎,社交媒體為公眾引入了一個全新的炒作目標,吸引了從社交媒體營銷號到國家行為發言人的各類人群。干擾Twitter熱門話題或者Facebook新聞動態成為許多人的一種嗜好。任何人只要5美金,幾乎在所有主要網站上都能輕而易舉的買到關注者,點贊數和評論量。背後的經濟和政治動機顯而易見,但除了這些勢力強大的水軍,還有一大群人毫無目標的參與著網路攻擊。

例如,自Rick Astley的歌曲《Never Gonna Give You Up》推出時隔20年後,有這麼一群人決定幫他再登歌曲排行榜首。這樣做的目的並不是幫Rick Astley賺錢(儘管有此效果)。正如4chan等其他網站創造出的表情包,僅僅是為了娛樂。但通過這樣的方式,大量觀眾學會了如何讓某些資訊被病毒式傳播或者其他的干擾網路系統的方法。換句話說,他們學會了如何獲得注意力。通過這些行為,他們開發出了一套能夠造成嚴重後果的炒作策略。

我發現我的資料被操縱了……

一個炒作Rick Astley的例子

像“披薩門”這類的事件並非偶然,這是一群網路村民尋找愚弄資訊系統的產物。(編者注,披薩門是去年美國大選期間發生的陰謀論,懷疑希拉蕊競選經理被曝出的電子郵件中包含利用一系列餐廳進行人販子生意的暗語。這個陰謀論已經數次被反駁和攻破,包括警察部門。)他們創造了許多被稱做“馬甲”的跨平臺網路虛假賬戶,這些賬戶巧妙的影響媒體和其他勢力團體,引發他們對精心設定的問題、博文和網路視訊的關注。這種事件的編造並不是為了讓媒體信以為真,而是讓這些媒體傻傻的通過大量自有宣傳渠道否定它。這樣就產生了“反向效應”,如此那些不相信媒體的人認定這其中必有一些陰謀論,從而鼓勵一些人自發調查。

我發現我的資料被操縱了……

接著就有鋪天蓋地的評論要求“開啟視窗”——或者說增加公共討論話題的尺度。媒體們被騙去散播問題事件。更有甚者,推薦引擎會被用於向問題事件的被動接受者推送更多相關內容。再舉個例子, 研究員Joan Donovan主要研究白人至上主義,工作之餘,她開啟Amazon,Netflix, 或是YouTube,沒有一個網站不向她推薦消費新納粹主義音樂、視訊和其他周邊。一些激進分子也知道如何變本加厲製造問題。不用觸犯Twitter的任何保護機制,那些人可以想方設法利用公司廣告內容放大白人優越主義思想,引發關注社會公平群體的憤怒。

總體來說,這些伎倆是對演算法系統的手動攻擊,但我們都知道,攻擊的方法一直在變化,不在僅僅是手動。而現在,一切即將再次改變。

脆弱的訓練集

訓練機器學習系統需要資料,而且是海量資料。儘管目前已經建成了一批標準化語料庫,計算機科研人員、初創企業和大公司對於新的、差異化的資料的需求依然有增無減。

首當其衝的問題就是所有資料都帶有偏見。從總體上看,人和社會的偏見反映得最為明顯。以當下很紅的資料集ImageNet為例,人類根據形狀進行分類的速度高於根據顏色;受此影響,資料集最終會包含一些奇形怪狀的人造物體。

我發現我的資料被操縱了……

深度神經網路中的認知心理學:形狀偏見的個案研究,2017年6月29日

在應對社會偏見時,局面會變得更加混亂無章。Latanya Sweeney在谷歌上搜尋自己的姓名時驚訝地發現,有廣告邀請她查詢自己是否有犯罪記錄。作為一名好奇寶寶式的電腦科學家,她決定在系統上跑一批常見的白人名字和黑人名字,看看哪些名字會招來廣告。不出所料,招來這種刑事類產品的都是黑人名字。這並不是因為谷歌知道怎樣看名字下菜碟,而是因為搜尋使用者在搜尋黑人姓名時,點選刑事類廣告的機率更高。谷歌學到了美國人的種族歧視,並“發揚光大”,最終影響了全部使用者。

我發現我的資料被操縱了……

A和C顯示的是針對兩個人各自姓名出現的廣告,B和D表明該廣告暗示存在犯罪前科所根據的是姓名型別,而非就是此人的檔案。

不論是對人進行分類的資料還是由人進行分類的資料,只要想以此為基礎建立系統,其中那些虛虛實實明明暗暗的文化偏見都將成為巨大的挑戰。

不過還有一項新的挑戰正在日漸成型:散佈在不同網路中的人群和國家行為者。他們在社交網路上興風作浪,搜尋引擎對於相應資料的關注度卻與日俱增,而各家公司正是用這些資料來訓練、改進各自系統的。

舉個例子,假設用Reddit和Twitter的資料來做訓練。這些公司在API上表現的非常大方,電腦科學家們長期以來也從這裡抓取了大量資料來訓練各種模型,試圖理解自然語言、圍繞連結開發源語言、以及追蹤社會模式。他們訓練各種模型來檢測抑鬱症、為新聞排序、並參與到會話當中。忽略了這些資料從一開始就不具有代表性這一個重要的點,絕大多數用著這些API工程師都相信他們可以清潔抓到的資料、並去除所有的問題內容。我向你保證,沒門兒。

不論刪除多少特定的subreddits、推文種類,亦或是忽略包含問題詞語的內容,這些都不會讓你在那些誠心找茬的人面前佔據先機。

我眼睜睜地看著無數人或者組織用盡各種方式想要混淆公共資料,大公司的系統也在他們的目標範圍之列。他們試圖通過低空飛行避開雷達監管。如果你沒有準備好相應的系統,從戰略層面去應對這些早有準備繞開你精心制定的計劃的人,你簡直不堪一擊。這與意外或自然內容無關,甚至也牽扯不到帶有文化偏見的資料。這是那些試圖揣測你意圖的人故意施展手段,將特意炮製的內容注入到系統當中。

如果你想要理解這到底是什麼意思,不妨想想Nicolas Papernot和他的同時去年發表的實驗。為了深入掌握計算機影像演算法的弱點,他們決定改變停止標誌的圖形外觀,即使底層神經網路會將之解讀為放行標誌,在肉眼看來它依然代表停止。想想對於汽車來說這意味著什麼。如果分類標準能夠如此輕易地任人魚肉,這項技術還能得到廣泛應用嗎?

我發現我的資料被操縱了……

《攻擊機器黑匣子實用教程》,2017年3月19日。研究人員改變了第一行的影像,以誤導神經網路,並導致了最後一行的錯誤解讀。然而人的肉眼是看不出改動之處的。

迄今為止,針對機器學習模型展開的最成功的資料注入攻擊發生在研究領域;但我們也發現越來越多的人試圖在主流系統中製造混亂。他們目前還沒得手,但僅憑這一點我們絕不能否認他們的學習和試探在不斷升級。

打造技術抗體

數十年來,眾多公司都沒把這些安全漏洞當回事,直到系統被突破的訊息一次又一次的登上頭條。在應對這個新問題上,我們還要重蹈覆轍嗎?

如果你正在構建資料驅動式的系統,你從現在就要開始考慮資料會以怎樣的方式、被誰汙染,以實現何種目的。

測試文化在這個技術行業中已經失去了生存的土壤。這個鍋社交媒體是逃不開的。15年前,的靈光乍現之下,我們一頭扎向了“永久公開測試”的文化。我們邀請公眾成為我們的質保工程師。但是內部QA遠比找BUG要複雜,它需要將對抗思維融入到設計和研發過程中。當搞破壞的人就隱藏在公眾之中時,請大家位系統找漏洞的效果就不盡如意了。進一步來說,當前不論是誰在一沒動機、二沒渠道的情況下,都沒法在私下裡告知我們問題所在。有些記者會找到瞞天過海的方法,把系統變成新納粹主義的廣告,藉此來嘲笑我們;也只有此時我們才會注意到問題所在。然而儘管如此,更多包藏禍心的行動者開始和我們的資料玩兒起來放長線釣大魚的遊戲。為什麼在魔高一丈之前,我們不搶先道高一尺呢?

樂觀的看,作為應急措施,很多研究人員都將在機器學習系統的高階研發中融入了對抗思維。

以生成性對抗網路(GANs)為例。那些對此不太熟悉的人可以這樣理解:你手上有兩個無人監督的機器學習演算法-前者負責為具有評估功能的後者生成內容。前者試圖騙後者接受“錯誤”資訊。這樣操作旨在找到模型和資料隱空間之間的界限。我們需要更多這樣的研發專案-隨著真正的對抗思維直接融入到模型搭建過程中,測試文化在研究領域也走到了盡頭。

我發現我的資料被操縱了……

白帽子-“高舉正義大旗”的黑客。舉例來說,測試系統的安全性或漏洞(圖片:CC Magicon, HU)

但這些研究的作用非常有限。我們需要積極主動、目標明確地構建相應文化,開展對抗測試、評估,並將之融入研發過程。我們需要構建分析方法,評估我們使用的資料集中的偏見。我們還需要開發相應的工具來監督系統的運轉情況,這方面需要的精力毫不遜於模型最初的搭建階段。我的同事Matt Goerzen認為除此之外,我們還需要有策略地邀請白帽子中的牛人介入到我們的系統之中,幫助我們查漏補缺。

技術行業已經不再是一群極客的狂歡,不再僅僅是想要做點不一樣的事情那麼簡單。它是經濟和資訊世界的重要基石。

只需要想想我們要構建怎樣的世界,這種好日子已經一去不復返了。我們必須從戰略層面認真思考,他人想要以何種方式操縱系統為非作歹。

原文連結:https://points.datasociety.net/your-data-is-being-manipulated-a7e31a83577b

相關文章