“大資料”是時下流行的一個術語,是解決技術世界最難解的問題的一站式答案(目前已經變成三個X級別了)。這個詞通常用來指分析大量資訊資料的科學技術,以檢測模型,收集意見並預測複雜問題的解決方法。聽起來可能有點枯燥,但是大資料的作者們覺得從防恐到結束貧困再到拯救地球都不是什麼大的事情。

“當大資料成為敦促全球性問題的解決辦法之一時,帶給社會帶來巨大的益處,比如探氣候變化,根除疾病,推進良好治理和促進經濟發展。” Viktor Mayer-Schönberger 和Kenneth Cukier在名稱很謙虛的《大資料:將改變我們生活、工作、思想的革命》一書中預示。

不管資料是來自iPhone手機,雜貨店採購清單,網上交友記錄,或是整個國家的匿名健康記錄,只要資訊量夠大,運用我們的計算能力將資料解碼,從中獲得的結論將是不可計數的。即使奧巴馬政府也很吃驚於這個新趨勢,5月9日稱企業家,研究員和公眾“從前不能獲取或管理的資料”現在成為了“開創性”的寶藏。

“我們推動個人創新和發現的一個舉措就是讓大量的美國資料有史以來第一次如果公開,易於獲取。有才能的企業家們正在利用這些資料做的事情讓人感到相當驚奇。”奧巴馬總統說。

但是大資料的確是像宣傳的這樣神奇嗎?我們能夠相信這麼多的個體和英雄將為我們照亮人類行為的隱祕世界嗎?外交政策雜誌邀請麻省理工學院公眾媒體研究中心的Kate Crawford探討資料背後的故事。——編輯。

“如果有足夠的資料,資料將自證。”

完全沒有可能。大資料的推動者們想要我們相信,大量的資料庫和程式碼後,是人類行為模式的客觀通用解釋,比如消費,犯罪或恐怖行為,健康習慣,還有僱員生產率。但很多大資料的作者不去冷靜地思考弱點。資料並不能自我證明,不管資料規模有多大,資料集仍是人類設計的產物。阿帕奇雲端計算軟體框架等大資料工具並不能讓人們的思維避免偏移、中斷或出現錯誤假設。在大資料試圖反應我們居住的社會的真實情況時,這些因素特別重要,然而我們經常被愚弄,認為計算結果比人類的的觀念更客觀。大資料與個體知覺和經驗一樣,有同樣多的偏差和盲點。但有一個錯誤的看法,認為資料越大越好,關聯性等於因果。

舉例來說,大資料喜歡分析來自社會媒體的資料資源,而且其中必定有很多資訊有待發掘。我們被告知,推特資料告訴我們人們離家較遠時比較高興,週四晚上最不高興。但是有很多理由問一下這個資料真正要反映的是什麼。首先,我們從皮尤研究中心知道只有16%的美國線上成年人使用推特,這個人數不能作為有代表性的樣本——他們更多傾向於年輕人和城裡人,而不是普通人群。其次,我們知道很多推特使用者使用自動回覆程式“bots”,還有虛假帳戶或半人工帳戶——使用“bots”和人工共同控制的帳。最新估計資料表明有2000萬虛假帳戶。因此,在我們進入推特感情評估這個方法的雷區前,先問問這些感情是人們自己的表達還是自動設定的。

但是,即使你確信推特上的大多數都是有血有肉的真人,也存在確認偏向的問題。比如,IBM使用社會信心指數大量分析了推特關於參賽選手的資訊,預測2013年澳大利亞網球公開賽中誰將是社會媒體中“最積極的”選手。結果是維多利亞·阿紮倫卡列在第一。但推特上很多人批評阿紮倫卡使用醫療時間超時,引起爭議。所以,推特們是喜歡她還是討厭她?很難相信IBM的計算是正確的。

一旦解決了垃圾資料的問題,我們來考慮一下計算本身是如何偏移的,急急忙忙地劃定範圍,寫程式,迎合需求。

人權組織也指望利用大資料來幫助理解衝突和危機。但同樣存在資料與分析的質量問題。邁克阿瑟基金最近為卡耐基梅隆大學的人權科學中心提供了為期18個月17500美元的資金,用於調查大資料分析如何改變人權實情調查,比如通過“可信度檢驗”對來自危機地圖儀Crisis Mappers, 目擊者Ushahidi, 臉譜Facebook,YouTube等網站的聲稱侵害人權的事件進行分類。中心主任Jay D. Aronson指出“研究機構和人權組織使用資料時,出現了嚴重的問題,對資料來源鋇有責任。很多情況下,報告事情的人們的安全是否由於新技術的應用而進一步得到保障還是因此受到威脅,並不清楚。”

“大資料不存在不同社會團體間的歧視。”

很難。大資料聲稱客觀性的另一個保證是大資料中對少數群體的歧視較少,因為原始資料不受社會偏見干擾,使得分析在量級很高的資料中進行,因此避免了群體歧視。但大資料常常就是為了這個目的而進行的——將個體分離並劃到不同的人群裡——因為它有能力聲稱不同人群的行為如何不同。例如,最近的一篇論文指出科學家們如何運用他們關於人種的假設來設計大資料基因研究。

正如阿利斯泰爾克羅爾所寫,用大資料分析價格歧視分析的可能性引起了有關民事權利的嚴重關注,這種行為歷史上稱為“劃紅線登出”(將某些顧客劃出貸款物件範圍)。在“個性化”的紅色標題下,大資料可以用來隔離特定社會人群,並區別對待,這是法律明文禁止企業或人們去做的。公司可以選擇通過線上廣告向那些家庭收入可觀或銀行信用記錄良好的人推廣信用卡,而其他人完全不知道能夠獲得這種有選擇性的信用卡。谷歌甚至有一項動態估價的專利:因此,如果你過去的購買記錄表明你很有可能購買昂貴的鞋子,下一次你線上購買鞋類產品的起價可能會相當高。現在僱主們試圖將大資料應用到人力資源管理,通過分析僱員的每一個敲擊行為和拍打行為,評估如何使僱員的生產效率更高。僱員或許根本不知道有關他們的資料有多少正在被收集,用來幹什麼。

歧視也會發生在人口統計領域。比如,紐約時報報導說Target幾年前即開始收集其顧客的個人檔案,現在擁有的採購趨勢方面的資料量很大,某些情況下足可以僅僅根據一個女人的採購記錄來預測她是否懷孕了,並且有87%的把握。文章中提到的Target統計人員強調這將如何幫助公司加強對準父母的市場營銷,可以想象,這些結果也會以其它的歧視方式被利用,可能嚴重影響社會公平,當然不有隱私。

最近,哥倫比亞大學對58000個臉譜網的好惡資料進行研究分析,分析結果用來預測非常敏感的使用者個人資訊,比如性取向,種族,宗教和政治觀點,個性特點,智商,幸福程度,使用上癮藥物,父母婚姻狀況,年齡,及性別等。記者湯姆·福斯基注意到這個研究,說“僱主,房東,政府機構,教育機構,私人組織能夠輕易地獲取敏感度如此高的資訊,他們有辦法歧視對待和懲罰個人,個體卻沒有辦法反抗。”

最後,想想在實施法律條文過程中的隱藏的事情。從華盛頓特區到特拉華州的紐卡斯爾縣,警察開始使用大資料的“預防性監控”模型,希望能給未破的案子一些調查線索,甚至有助於預防新的犯罪。不管怎樣,將警力活動重點放在大資料檢測到的“熱點地區”是冒著另一種危險,進一步指責社會群體是可能的罪犯,將不同的警務行動制度化成常規作法。正如某位警察局長所寫,預防性監控儘管確定地避免了種族和性別歧視,但使用該系統而不考慮各種影響的實際後果可能是“惡化警察與社群的關係,讓人感覺缺少程式上的公正,被控告按種族定性,對警察的合法性造成了威脅。”

“大資料是匿名的,因此不會侵犯隱私。”

完全錯了。儘管很多大資料的提供者盡力把個人資訊從人群資料集中去除,重新鑑別身份的風險還是真實存在的。手機資料總體上規模大,看起來沒有個人特徵,但最近有一項針對歐洲1500萬手機使用者資料的研究表明,只要四個控制點就足以識別出一個人95%的資訊。研究員注意到,人們在城市間穿梭的方式有其獨特性,但考慮到可以從大量的公眾資訊資料中匯出很多內容,使得隱私“引起更多關注”。多虧有Alessandro Acquisti這樣的研究機構,我們知道如何通過交叉分析公共現有資料直接猜出個人安全社會保險號。

但是,大資料的隱私問題遠遠不只是通常的身份重新識別風險。當前,賣給研究公司的醫學資訊也有風險,可能被用來追蹤你的個人身份。關於個體化用藥,有很多議論,有人希望處方藥和其它治療方法可以目標個性化,從提高醫學角度講,這個前景很美妙,但基礎是掌握個人細胞遺傳資訊,但有這些資訊有很大的風險被不當利用或洩漏。儘管象RunKeeper和 Nike+這樣個人健康資料採集裝置發展迅速,但應用大資料提高衛生保健的實踐仍然是渴望高於現實。

擁有大資料的能源生產商們正在收集其它的私人資訊,比如智慧電網Smart Grid。通過分析大量的使用者能源用量資料,看起來可以促進能源輸送到家庭和公司的效率。這個專案前景廣闊,但也面臨巨大的隱私風險。它不僅能預測我們需要能源的數量和時間,而且每分每秒都有大量的資料資訊流失。據英國海上金融工業的訊息,世界上百分之一的事物與每個個人一樣易於受到個人資料公開化的攻擊。

“大資料是科技的未來。”

部分是對的,但還有很多事情要做。毫無疑問,大資料為科學發展提供了一條新的途徑。我們只需看看希格斯玻色子的發現即可,成果來自歷史上最大的網格計算工程,歐洲核子研究委員會使用雲上檔案傳送系統Hadoop Distributed File System來處理所有資料。但是,除非我們能夠識別並應對大資料在反應人類生活時的內在缺陷,否則我們可能讓主要的公眾政策和商業決策建立在錯誤的假設之上。

要應對這些內在缺陷,資料科學家們開始與社會學家合作,社會學家長期以批判的眼光與資料打交道:評估資料來源、資料的收集方法、資料應用涉及的道德倫理問題。隨著時間的推移,這意味著找到一條新的途徑,將大資料方法與小資料研究結合起來。這遠遠超過了廣告和營銷使用方法,如焦點討論或A/B測試(測試中,給使用者兩個版本的設計或產品,看哪一種結果證明更有效)。而新的方法組合還會提出人們為什麼做事的問題,而僅僅總結出事情發生的頻率。這意味著吸收了社會學分析和民族學的深度見解,還包括追溯資訊檢索和機器學習的內容。

科技公司早就意識到,關於人們如何對待他們產品,為何如此,社會學家能夠提供更有力的觀點,比如施樂公司的帕洛阿爾託研究中心僱用人類學家的先驅薩奇曼先生。接下來,各領域的電腦科學家、統計學家、社會學家之間的合作將更加豐富——不僅檢驗彼此的發現成果,還會提出根本不同類的問題,而且更加尖銳。

想到關於我們的資訊每天都在被大量地收集——包括臉譜點選率,GPS資料,醫藥處方,網飛的資料列——我們必須儘早確定誰是可以信任的,他們使用我們的資料的目的何在。有一個事實無法逃避,資料從來不是中立的,很難做到匿名。但我們可以利用不同領域的專業知識更好地確認偏差、差異和假設,進而應對隱私和公平方面的挑戰。

via:yeeyan