fy1420word20cloud

 

導語

近年來,大資料研究方法逐漸應用於社會學科領域,運用大規模使用者資料,社科領域研究者得以從新的視角理解使用者媒介使用習慣、語言、與情感。然而,在大資料研究不斷普及的背景下,如何規範大資料研究的倫理準則,如何保證研究物件的隱私權,以及如何研究現有網際網路公司的倫理問題,這些問題看似遙遠,但是卻直接影響大資料研究者的行為準則。此外,回答與大資料研究、實踐相關的倫理問題,將有助於增加普通公眾對大資料的瞭解。本期【大資料與社會】欄目將以案例討論的形式梳理在大資料研究和實踐中所湧現出的若干問題,解釋大資料研究的潘多拉魔盒是如何被開啟的,而它又將如何改變我們的生活。

作為大資料資源的管理者,社交網站擁有豐富的使用者資料資源。傳統意義上,網站運營者的主要角色在於提供社交平臺、優化服務與產品、吸引更多使用者加入。然而,在近年來出現的部分使用者行為研究中,社交網站的研究人員通過大規模使用者實驗研究使用者行為習慣超越了其傳統單純的網路執行者角色。一方面,該類研究為社會學科補充了大規模實驗的實證結果;然而另一方面,使用者行為實驗,尤其是涉及操控使用者社交媒體內容的實驗,也觸碰到了社交網路使用者的權利。其中,Facebook的一項關於情緒感染(emotional contagion)的實驗更是引發了社會科學內部對於大資料研究倫理的廣泛討論。

Facebook情緒感染實驗:關於研究倫理的爭議

在《美國國家科學院》2014年6月17日院刊中,Facebook首席資料科學家亞當·卡拉默(Adam Kramer),康奈爾大學交流與資訊科學學院教授賈米·古伊洛瑞(Jamie Guillory)和傑弗瑞·漢考克(Jeffrey Hancock)通過修改689,003名Facebook使用者可以接觸到的好友新鮮事的情緒帖研究情緒在社交媒體上的傳播與擴散方式。

在為期一週的實驗中(2012年1月11日-2012年1月18日),研究人員通過使用者ID隨機選取689,003名Facebook英語版使用者,並將其分為兩組。一組減少重新整理好友新鮮事時顯示的正面情緒帖佔比,另一組則減少重新整理時顯示的負面情緒貼佔比。

研究人員發現當好友正能量新鮮事被有意減少後,使用者在發帖時會使用更多比例負面詞彙和更少比例正面詞彙。當減少負能量新鮮事時,則出現相反的表達方式。與此同時,研究者還發現一種退出效果(withdrawal effect):越少接觸情緒性狀態的人,在接下來的日子裡也會減少感情流露。這項發現與此前認為“閱讀朋友Facebook上正面情緒狀態會帶來負面影響”的觀點相左,基於此發現,研究人員認為負面影響的產生原因是接觸正面情緒不足所導致的。

該研究證實:情緒可以通過情緒傳染(emotional contagion)的形式傳遞給他人,使他人在無意識中感受到同樣的情緒。此外,大規模社交網路的情緒傳染還證實面對面的交流和非言語上的暗示並非情緒傳染的必要條件,即情緒傳染可以通過社交媒體,如Facebook,經由線上社會網路進行。

然而,由於該實驗過程涉及操縱使用者的好友訊息推送(譯者注:通過推送包含積極或消極情緒的好友訊息,Facebook使用者被動接受了研究者處理過的資訊),Facebook的實驗也引發了學術界和社會對其法律和道德層面的激烈探討。最為廣泛的批評在於:被動接受負面資訊的使用者很有可能收到了負面情緒的不良影響,在其不知情的情況下體會到了情緒感染導致的焦慮(anxiety)。

鑑於論文發表後強大輿論批判, Facebook的資料實驗團隊強調,所有的資料分析全部基於計算機演算法,他們沒有閱讀或篡改使用者釋出的內容,只是調整了新鮮事的排列順序。好友的其他新鮮事和狀態,在進入其個人主頁後仍能看到。實驗的目的旨為提升使用者體驗,以使使用者在facebook上看到的內容更具相關性。

然而,該研究的爭議性依然持續發酵,該研究的第一作者亞當·卡拉默(Adam Kramer)最終不得不在其部落格中公開向Facebook使用者道歉,並保證今後將不會在使用者不知情的情況下進行類似實驗。

對Facebook實驗倫理的討論不僅限於該個案本身,牛津大學網際網路研究所教授拉爾夫·施羅德(Ralph Schroeder)撰文質疑Facebook實驗背後更廣泛的大資料研究倫理問題,並延伸討論了我們應當如何應對大資料研究對公眾的影響。

施羅德教授援引赫胥黎在《美麗新世界》一書中展現的在資訊繁盛的文明中日漸被動、麻木的社會。藉此警示:社會研究所使用的大資料,因其對資料學習前所未有的深度和廣度,對我們的生活越來越有影響力。這一特質很容易會被掌握了大資料影響力的企業或機構利用,藉此操縱人的好惡。

施耐德教授認為,當下熱議的大資料道德問題的關鍵在於資料多大程度上屬於使用者私人資料(an essential infrastructure for citizens),假如實驗者所操縱的是使用者的私人資料而非公共資料,那麼類似研究將不可避免地侵犯使用者利益。

關於大資料研究,施耐德教授還提出了兩種不同導向:第一種研究為學術導向(Academic Research),另一種則是應用導向(AppliedResearch)。兩種研究都利用大資料增加對人類社會的理解,區別卻在於前者意圖創造可推廣的知識(generalizableknowledge);後者則致力於向特定受眾(particular audience)提供可應用的知識(implementing knowledge),從而影響使用者決策行為。兩種不同導向雖然有重合之處,但是對於我們理解研究倫理卻又不同的指導意義。

按照施耐德教授的定義,Facebook研究可以歸類於致力於提供可推廣知識的學術導向研究,儘管涉及研究倫理及侵犯使用者隱私等問題,該研究為行為科學研究提供了一定實證支援。然而,對於大資料的使用和操控的另一種導向:應用導向通常更加隱蔽,但同樣威脅使用者權利,甚至可能操控使用者商業、政治等決策行為。

Google搜尋與印度大選:搜尋引擎可能操控我們的決策

羅伯特·愛潑斯坦(Robert Epstein)是美國行為研究和技術研究所(AmericanInstitute for Behavioral Research and Technology)高階心理學研究員及科學美國人心靈雜誌(Scientific American Mind)的特約編輯。他也是馬薩諸塞州的劍橋行為學研究中心的創始人和名譽主任。他的團隊抽取了2014年印度人民議會選舉最後投票前4556位中間選民,樣本來自美國和印度具有有效投票資格的印度選民。

該實驗使用了模擬搜尋引擎,隨機將被試分為不同組,每一組所接受的搜尋引擎結果經過研究者設計為偏向於某個特定競選人。在實驗前後,研究被試均被問及其投票偏好(voting preferences)。通過該實驗,研究人員希望發現:有傾向的搜尋結果是否可以改變選民意見和偏好?如果有,將在多大程度上改變中間選民的偏好?

研究發現:1)有偏倚的搜尋排名可以改變20%或更多的中間選民的投票取向;2)這種轉變在某些特定人口群體中比例更高達60%;3)搜尋排名的偏好可以很隱蔽,以至於人們無法意識到自己被操縱。

愛潑斯坦團隊將這種現象歸因於搜尋引擎的操縱效應(SEME,譯者注:Search Engine Manipulation Effect)。在現實選舉中,很多選舉都由於競選團隊實力不相上下,最終多數黨以小幅優勢取勝,因此,該研究的意義在於證實了:單憑對搜尋結果排名的操控,一家搜尋引擎公司便有實力影響選民決策、操縱競選結果。

雖然該研究使用的是模擬搜尋引擎,但是研究者希望藉由該模擬結果引起公眾對索索引擎操縱效應的警惕:由於當下對搜尋引擎公司監管並不完善,研究者認為這些公司有可能影響,甚至已經開始影響政治選舉的結果。藉由操縱搜尋排名偏好該公司所青睞的候選人,從而操縱猶豫不決的選民是一個極其微妙但是卻行之有效的政治操縱方式。更為令人警惕的是該種操縱對於民主制度將有可能造成威脅。

有趣的是,在愛潑斯坦團隊研究的過程中,谷歌並非不知情,甚至有可能派出員工參與該研究的實驗中。據愛潑斯坦在接受媒體採訪時介紹,當研究團隊在第二個實驗中從網際網路招募志願者時,兩個IP地址都來自谷歌的總部。

學術界對於搜尋引擎可能的操縱行為早有預警,作為網際網路資訊的介面,學術界對於搜尋引擎未來是否會淪為政治派系鬥爭的工具有著諸多顧慮。

Introna和Nissenbaum撰文指出網際網路具有科技和政治的二重性。一方面,網際網路是科技發展的產物;另一方面,網際網路作為新興媒體,同傳統媒體一樣可能會遭受政治派系的影響和操控。

在搜尋引擎的案例中,政治偏見的產生可能體現於搜尋引擎和被搜尋資訊的關係裡:即網頁是否能夠收錄於搜尋引擎結果中,又能夠被給予怎樣的排名。這兩個過程中演算法的不公開性都會為政治偏見的產生提供溫床。從微觀層面講,大多數搜尋者並不瞭解搜尋引擎的收錄和排名機制。資訊的不對稱使得搜尋者無法做出理性的決策,他(她)們只會根據偏好或者隨機進行選擇。

Introna和Nissenbaum強調,搜尋引擎的演算法不公開和商業導向會導致其違背網際網路成立之初所確立的基本原則和最初理想。網頁搜尋演算法的重要地位使得它不應該單由市場所控制。搜尋引擎是市場的市場,當人們在搜尋一個特定市場時,實際上是處於資訊市場當中。而搜尋引擎會在資訊市場中傾向於選擇突出更受歡迎和金錢能力更強的網站。如果單單由市場所控制,隨著網際網路變得更普遍,這種偏見問題就會更尖銳。因此,兩位研究者提倡在搜尋引擎的市場機制以外引入其他制約機制,規範搜尋引擎的執行。

結語

在學術研究領域,大資料所帶來的勇敢新世界不斷擴充套件著社會研究的邊界,為研究者提供全新的視角,更大規模的樣本,增加我們對人類社會結構與人類情感行為的理解。於此同時在實踐與應用領域,大資料也對商業公司提供了更多的機遇,尤其是大規模的使用者資料資料為企業提供了細分使用者市場、剖析使用者行為偏好的資源。然而,正如傳統社會研究與社會應用,大資料研究與實踐同樣應當受倫理與法律的雙重製約。當大資料的弄潮兒開啟大資料的潘多拉魔盒,看到一個“勇敢新世界”(brave newworld)的同時,更應該意識到與之並存的危機。大資料不僅僅是生硬死板的數字,其背後是使用者的日常生活,社會交往,甚至是情感表達。定義哪些資料是使用者的私人資料,界定商業公司實踐操作的邊界和尺度。這些必須,也必將會成為大資料研究的重點課題之一。

via:大資料文摘