我發現我的資料被操縱了……

大数据文摘發表於2017-10-16

原文網址 : http://www.jiqizhixin.com/articles/2017-11-02-19

我發現我的資料被操縱了……

大資料文摘作品

作者：danah boyd

編譯：糖竹子、白丁、Aileen

索引的完整性不再是決定搜尋結果質量的唯一因素。使用者感興趣的搜尋結果常常淹沒在“垃圾結果”中。

---- 引自Sergey Brin 和Larry Page的《解剖谷歌搜尋原理》（1998年4月版）

當前，我們正目睹著一場資料被濫用的大劇。限制資料濫用並且努力解決偏見資料和問題資料，正成為解決科技對社會基石產生影響的重要條件。

簡而言之，我認為大家應該重新考慮，安全、公平到底意味著什麼。本文從三個方向告訴我們，在資料驅動的世界中，我們的資料有可能被如何情況操縱。

操縱資料的原罪者-谷歌

1998年，兩個史丹佛畢業生決心著手解決主流搜尋引擎存在的問題。

Sergey Brin 和 Larry Page合作撰寫了一篇論文，描述他們的網頁排序演算法是怎樣解決搜尋結果中垃圾網頁過多的問題。他們的想法意義非凡，如今被人們認為是Google公司創立的基石。但是這一想法並未阻止人們不斷擾亂自己的網路系統。事實上，谷歌的崛起不過增加了搜尋引擎進一步優化的難度。

我發現我的資料被操縱了……

時光流轉到2003年，當賓夕法尼亞參議員 Rick Santorum 公開將同性戀類比人獸交和戀童癖時，毋庸置疑，LGBT群體被激怒了。媒體Dan Savage呼籲他的讀者們做點什麼以記住這醜陋的時刻。其中一位粉絲建立了一個以Santorum的名字和“肛交”一詞聯合命名的網站。令這位參議員不寒而慄的是，無數公眾參與了將網站連結推送到搜尋引擎首條的行動中。

這種眾包形式的搜尋引擎優化行為被稱作“谷歌爆炸”，一種媒體炒作形式，旨在干擾資料和資訊環境。

我發現我的資料被操縱了……

媒體炒作和網路失真資訊（封面),2017年3月，Jim Cooke繪製的插圖

媒體炒作並不新穎。正如許多人所知，宣傳和社交媒體營銷的界線通常是模糊的。除此以外，那些通過點贊、評論和訂閱量等公共訊號宣傳產品特點的公司都熟知，任何被創造的系統都將成為娛樂、利益、政治、意識形態和權力遊戲的舞臺。甚至連國會現在都在為此鬥爭。

而除了這些已經發生的，我們還正在面臨哪些資料被操縱的情況，以及該如何應對。

我發現我的資料被操縱了……

騙過網路系統

如同搜尋引擎，社交媒體為公眾引入了一個全新的炒作目標，吸引了從社交媒體營銷號到國家行為發言人的各類人群。干擾Twitter熱門話題或者Facebook新聞動態成為許多人的一種嗜好。任何人只要5美金，幾乎在所有主要網站上都能輕而易舉的買到關注者，點贊數和評論量。背後的經濟和政治動機顯而易見，但除了這些勢力強大的水軍，還有一大群人毫無目標的參與著網路攻擊。

例如，自Rick Astley的歌曲《Never Gonna Give You Up》推出時隔20年後，有這麼一群人決定幫他再登歌曲排行榜首。這樣做的目的並不是幫Rick Astley賺錢（儘管有此效果）。正如4chan等其他網站創造出的表情包，僅僅是為了娛樂。但通過這樣的方式，大量觀眾學會了如何讓某些資訊被病毒式傳播或者其他的干擾網路系統的方法。換句話說，他們學會了如何獲得注意力。通過這些行為，他們開發出了一套能夠造成嚴重後果的炒作策略。

我發現我的資料被操縱了……

一個炒作Rick Astley的例子

像“披薩門”這類的事件並非偶然，這是一群網路村民尋找愚弄資訊系統的產物。（編者注，披薩門是去年美國大選期間發生的陰謀論，懷疑希拉蕊競選經理被曝出的電子郵件中包含利用一系列餐廳進行人販子生意的暗語。這個陰謀論已經數次被反駁和攻破，包括警察部門。）他們創造了許多被稱做“馬甲”的跨平臺網路虛假賬戶，這些賬戶巧妙的影響媒體和其他勢力團體，引發他們對精心設定的問題、博文和網路視訊的關注。這種事件的編造並不是為了讓媒體信以為真，而是讓這些媒體傻傻的通過大量自有宣傳渠道否定它。這樣就產生了“反向效應”，如此那些不相信媒體的人認定這其中必有一些陰謀論，從而鼓勵一些人自發調查。

我發現我的資料被操縱了……

接著就有鋪天蓋地的評論要求“開啟視窗”——或者說增加公共討論話題的尺度。媒體們被騙去散播問題事件。更有甚者，推薦引擎會被用於向問題事件的被動接受者推送更多相關內容。再舉個例子, 研究員Joan Donovan主要研究白人至上主義，工作之餘，她開啟Amazon,Netflix, 或是YouTube，沒有一個網站不向她推薦消費新納粹主義音樂、視訊和其他周邊。一些激進分子也知道如何變本加厲製造問題。不用觸犯Twitter的任何保護機制，那些人可以想方設法利用公司廣告內容放大白人優越主義思想，引發關注社會公平群體的憤怒。

總體來說，這些伎倆是對演算法系統的手動攻擊，但我們都知道，攻擊的方法一直在變化，不在僅僅是手動。而現在，一切即將再次改變。

脆弱的訓練集

訓練機器學習系統需要資料，而且是海量資料。儘管目前已經建成了一批標準化語料庫，計算機科研人員、初創企業和大公司對於新的、差異化的資料的需求依然有增無減。

首當其衝的問題就是所有資料都帶有偏見。從總體上看，人和社會的偏見反映得最為明顯。以當下很紅的資料集ImageNet為例，人類根據形狀進行分類的速度高於根據顏色；受此影響，資料集最終會包含一些奇形怪狀的人造物體。

我發現我的資料被操縱了……

深度神經網路中的認知心理學：形狀偏見的個案研究，2017年6月29日

在應對社會偏見時，局面會變得更加混亂無章。Latanya Sweeney在谷歌上搜尋自己的姓名時驚訝地發現，有廣告邀請她查詢自己是否有犯罪記錄。作為一名好奇寶寶式的電腦科學家，她決定在系統上跑一批常見的白人名字和黑人名字，看看哪些名字會招來廣告。不出所料，招來這種刑事類產品的都是黑人名字。這並不是因為谷歌知道怎樣看名字下菜碟，而是因為搜尋使用者在搜尋黑人姓名時，點選刑事類廣告的機率更高。谷歌學到了美國人的種族歧視，並“發揚光大”，最終影響了全部使用者。

我發現我的資料被操縱了……

A和C顯示的是針對兩個人各自姓名出現的廣告，B和D表明該廣告暗示存在犯罪前科所根據的是姓名型別，而非就是此人的檔案。

不論是對人進行分類的資料還是由人進行分類的資料，只要想以此為基礎建立系統，其中那些虛虛實實明明暗暗的文化偏見都將成為巨大的挑戰。

不過還有一項新的挑戰正在日漸成型：散佈在不同網路中的人群和國家行為者。他們在社交網路上興風作浪，搜尋引擎對於相應資料的關注度卻與日俱增，而各家公司正是用這些資料來訓練、改進各自系統的。

舉個例子，假設用Reddit和Twitter的資料來做訓練。這些公司在API上表現的非常大方，電腦科學家們長期以來也從這裡抓取了大量資料來訓練各種模型，試圖理解自然語言、圍繞連結開發源語言、以及追蹤社會模式。他們訓練各種模型來檢測抑鬱症、為新聞排序、並參與到會話當中。忽略了這些資料從一開始就不具有代表性這一個重要的點，絕大多數用著這些API工程師都相信他們可以清潔抓到的資料、並去除所有的問題內容。我向你保證，沒門兒。

不論刪除多少特定的subreddits、推文種類，亦或是忽略包含問題詞語的內容，這些都不會讓你在那些誠心找茬的人面前佔據先機。

我眼睜睜地看著無數人或者組織用盡各種方式想要混淆公共資料，大公司的系統也在他們的目標範圍之列。他們試圖通過低空飛行避開雷達監管。如果你沒有準備好相應的系統，從戰略層面去應對這些早有準備繞開你精心制定的計劃的人，你簡直不堪一擊。這與意外或自然內容無關，甚至也牽扯不到帶有文化偏見的資料。這是那些試圖揣測你意圖的人故意施展手段，將特意炮製的內容注入到系統當中。

如果你想要理解這到底是什麼意思，不妨想想Nicolas Papernot和他的同時去年發表的實驗。為了深入掌握計算機影像演算法的弱點，他們決定改變停止標誌的圖形外觀，即使底層神經網路會將之解讀為放行標誌，在肉眼看來它依然代表停止。想想對於汽車來說這意味著什麼。如果分類標準能夠如此輕易地任人魚肉，這項技術還能得到廣泛應用嗎？

我發現我的資料被操縱了……

《攻擊機器黑匣子實用教程》，2017年3月19日。研究人員改變了第一行的影像，以誤導神經網路，並導致了最後一行的錯誤解讀。然而人的肉眼是看不出改動之處的。

迄今為止，針對機器學習模型展開的最成功的資料注入攻擊發生在研究領域；但我們也發現越來越多的人試圖在主流系統中製造混亂。他們目前還沒得手，但僅憑這一點我們絕不能否認他們的學習和試探在不斷升級。

打造技術抗體

數十年來，眾多公司都沒把這些安全漏洞當回事，直到系統被突破的訊息一次又一次的登上頭條。在應對這個新問題上，我們還要重蹈覆轍嗎？

如果你正在構建資料驅動式的系統，你從現在就要開始考慮資料會以怎樣的方式、被誰汙染，以實現何種目的。

測試文化在這個技術行業中已經失去了生存的土壤。這個鍋社交媒體是逃不開的。15年前，的靈光乍現之下，我們一頭扎向了“永久公開測試”的文化。我們邀請公眾成為我們的質保工程師。但是內部QA遠比找BUG要複雜，它需要將對抗思維融入到設計和研發過程中。當搞破壞的人就隱藏在公眾之中時，請大家位系統找漏洞的效果就不盡如意了。進一步來說，當前不論是誰在一沒動機、二沒渠道的情況下，都沒法在私下裡告知我們問題所在。有些記者會找到瞞天過海的方法，把系統變成新納粹主義的廣告，藉此來嘲笑我們；也只有此時我們才會注意到問題所在。然而儘管如此，更多包藏禍心的行動者開始和我們的資料玩兒起來放長線釣大魚的遊戲。為什麼在魔高一丈之前，我們不搶先道高一尺呢？

樂觀的看，作為應急措施，很多研究人員都將在機器學習系統的高階研發中融入了對抗思維。

以生成性對抗網路（GANs）為例。那些對此不太熟悉的人可以這樣理解：你手上有兩個無人監督的機器學習演算法-前者負責為具有評估功能的後者生成內容。前者試圖騙後者接受“錯誤”資訊。這樣操作旨在找到模型和資料隱空間之間的界限。我們需要更多這樣的研發專案-隨著真正的對抗思維直接融入到模型搭建過程中，測試文化在研究領域也走到了盡頭。

我發現我的資料被操縱了……

白帽子-“高舉正義大旗”的黑客。舉例來說，測試系統的安全性或漏洞（圖片：CC Magicon, HU）

但這些研究的作用非常有限。我們需要積極主動、目標明確地構建相應文化，開展對抗測試、評估，並將之融入研發過程。我們需要構建分析方法，評估我們使用的資料集中的偏見。我們還需要開發相應的工具來監督系統的運轉情況，這方面需要的精力毫不遜於模型最初的搭建階段。我的同事Matt Goerzen認為除此之外，我們還需要有策略地邀請白帽子中的牛人介入到我們的系統之中，幫助我們查漏補缺。

技術行業已經不再是一群極客的狂歡，不再僅僅是想要做點不一樣的事情那麼簡單。它是經濟和資訊世界的重要基石。

只需要想想我們要構建怎樣的世界，這種好日子已經一去不復返了。我們必須從戰略層面認真思考，他人想要以何種方式操縱系統為非作歹。

原文連結：https://points.datasociety.net/your-data-is-being-manipulated-a7e31a83577b

搜尋引擎如何操縱我們的思維
2018-05-29
我被刪庫了
2021-04-06
我以為我學懂了資料結構，直到看了這個導圖才發現，我錯了
2020-02-27
資料結構
ES資料沒了？誰動了我的資料？
2023-05-12
python 資料探勘-我分析了《乘風破浪的姐姐》，發現了這些秘密
2020-06-26
Python
JDBC:java提供的專門操縱資料庫的API
2021-01-01
JDBCJava資料庫API
我們的網站被狗爬了！
2024-07-31
網站
python 資料探勘-我分析了《乘風破浪的姐姐》，發現了這些祕密
2020-06-26
Python
我被Steam上爆發的“吃雞夢”盜號了
2020-01-16
我的小程式介面被刷爆了
2024-04-13
我們的網站被收錄了！
2024-08-26
網站
我發現 Linux 文件寫錯了
2022-04-25
Linux
我好像發現了一個Go的Bug？
2021-12-08
Go
請求支援，我們被非結構化資料包圍了！
2020-04-09
我是馬斯克，特斯拉被綠了，我現在慌的一批（附起訴書）
2018-09-28
馬斯克
縱橫20年，我所經歷的資料開放演化史
2022-11-25
數億WIFI晶片存在資料竊取和流量操縱風險；因存在安全漏洞，沃爾沃研發資料被盜
2021-12-17
WiFi晶片
完蛋！我被 Out of Memory 包圍了！
2023-11-10
建立和操縱表
2020-10-14
MYSQL中的DDL（用來操縱資料庫物件的語言）1
2018-09-17
MySql資料庫物件
（資料科學學習手札125）在Python中操縱json資料的最佳方式
2021-08-01
資料科學PythonJSON
不裝了，我攤牌了！人像卡通化的功能我實現了
2021-07-05
C# 操縱貼上板 Clipboard（傳送資料、讀取資料、清空資料）
2020-11-20
C#
“我不想讓我的女兒知道我被騙錢了”｜說說身邊的網路安全故事
2021-09-09
“孫割”被SEC起訴！涉嫌“左手倒右手”、操縱市場！
2023-03-24
mybatis plus很好，但是我被它坑了！
2023-10-31
MyBatis
一句SQL，我的資料庫crash了
2022-09-19
SQL資料庫
MySQL教程DML資料操縱語言示例詳解鍵塾
2022-03-01
MySql
面試官問我redis資料型別，我回答了8種
2020-11-11
面試Redis資料型別
我們都沒想過的中國經濟縱深現象
2019-09-23
被‘辭職’後，我是如何從安卓開發轉型大資料開發的
2019-05-13
安卓大資料
誰動了我的資料？如何防止資料偷偷溜走？
2024-04-25
我錯了，我有罪，我下跪
2024-06-07
被噴了！聊聊我開源的RPC框架那些事
2020-09-17
RPC框架
一個Bug，讓我發現了 Java 界的.AJ(錐)！
2021-04-22
Java
我們盤點了電競與NFT的合作，發現了這些現象
2022-02-23
我不寫單元測試，被批了
2022-12-13
《我的世界：地球》停止開發了
2021-01-11
我被C++開發欺辱的歲月
2019-06-01
C++

我發現我的資料被操縱了……

相關文章