譯者:霞飛

大資料是對於大規模現象的一種模糊的表達。這一術語如今已經被企業家、科學家、政府和媒體炒得過熱。

五年前,谷歌的一個研究小組在全球頂級的科學雜誌《自然》上宣佈了一個令人矚目的成果。該小組可以追蹤美國境內流感的傳播趨勢,而這一結果不依賴於任何醫療檢查。他們的追蹤速度甚至比疾控中心(CDC)要快的多。谷歌的追蹤結果只有一天的延時,而CDC則需要彙總大量醫師的診斷結果才能得到一張傳播趨勢圖,延時超過一週。谷歌能算的這麼快,是因為他們發現當人們出現流感症狀的時候,往往會跑到網路上搜尋一些相關的內容。

”谷歌流感趨勢“不僅快捷、準確、成本低廉,而且沒有使用什麼理論。谷歌的工程師們不用費勁的去假設哪些搜尋關鍵字(比如”流感症狀“或者”我身邊的藥店“)跟感冒傳染有相關性。他們只需要拿出來自己網站上5000萬個最熱門的搜尋字,然後讓演算法來做選擇就行了。

谷歌流感趨勢的成功,很快就成為了商業、技術和科學領域中最新趨勢的象徵。興奮的媒體記者們不停的在問,谷歌給我們帶來了什麼新的科技?

在這諸多流行語中,“大資料”是一個含糊的詞彙,常常出現於各種營銷人員的口中。一些人用這個詞來強調現有資料量的驚人規模——大型粒子對撞機每年會產生15PB的資料,相當於你最喜歡的一首歌曲重複演奏15000年的檔案大小。

然而在“大資料”裡,大多數公司感興趣的是所謂的“現實資料”,諸如網頁搜尋記錄、信用卡消費記錄和行動電話與附近基站的通訊記錄等等。谷歌流感趨勢就是基於這樣的現實資料,這也就是本文所討論的一類資料。這類資料集甚至比對撞機的資料規模還要大(例如facebook),更重要的是雖然這類資料的規模很大,但卻相對容易採集。它們往往是由於不同的用途被蒐集起來並雜亂的堆積在一起,而且可以實時的更新。我們的通訊、娛樂以及商務活動都已經轉移到網際網路上,網際網路也已經進入我們的手機、汽車甚至是眼鏡。因此我們的整個生活都可以被記錄和數字化,這些在十年前都是無法想象的。

大資料的鼓吹者們提出了四個令人興奮的論斷,每一個都能從谷歌流感趨勢的成功中印證:
資料分析可以生成驚人準確的結果;
因為每一個資料點都可以被捕捉到, 所以可以徹底淘汰過去那種抽樣統計的方法;
不用再尋找現象背後的原因,我們只需要知道兩者之間有統計相關性就行了;
不再需要科學的或者統計的模型,”理論被終結了”。《連線》雜誌2008年的一篇文章里豪情萬丈的寫到:“資料已經大到可以自己說出結論了“。

不幸的是,說的好聽一些,上述信條都是極端樂觀和過於簡化了。如果說的難聽一點,就像劍橋大學公共風險認知課的Winton教授(類似於國內的長江學者——譯者注)David Spiegelhalter評論的那樣,這四條都是“徹頭徹尾的胡說八道”。

在谷歌、facebook和亞馬遜這些公司不斷通過我們所產生的資料來理解我們生活的過程中,現實資料支撐起了新網際網路經濟。愛德華.斯諾登揭露了美國政府資料監聽的規模和範圍,很顯然安全部門同樣痴迷從我們的日常資料中挖掘點什麼東西出來。

諮詢師敦促資料小白們趕緊理解大資料的潛力。麥肯錫全球機構在一份最近的報告中做了一個計算,從臨床試驗到醫療保險報銷到智慧跑鞋,如果能把所有的這些健康相關的資料加以更好的整合分析,那麼美國的醫療保險系統每年可以節省3000億美金的開支,平均每一個美國人可以省下1000美元。

雖然大資料在科學家、企業家和政府眼裡看起來充滿希望,但如果忽略了一些我們以前所熟知的統計學中的教訓,大資料可能註定會讓我們失望。

Spiegelhalter教授曾說到:“大資料中有大量的小資料問題。這些問題不會隨著資料量的增大而消失,它們只會更加突出。”

在那篇關於谷歌流感趨勢預測的文章發表4年以後,新的一期《自然雜誌訊息》報導了一則壞訊息:在最近的一次流感爆發中谷歌流感趨勢不起作用了。這個工具曾經可靠的運作了十幾個冬天,在海量資料分析和不需要理論模型的條件下提供了快速和準確的流感爆發趨勢。然而這一次它迷路了,谷歌的模型顯示這一次的流感爆發非常嚴重,然而疾控中心在慢慢彙總各地資料以後,發現谷歌的預測結果比實際情況要誇大了幾乎一倍。

問題的根源在於谷歌不知道(一開始也沒法知道)搜尋關鍵詞和流感傳播之間到底有什麼關聯。谷歌的工程師們沒有試圖去搞清楚關聯背後的原因。他們只是在資料中找到了一些統計特徵。他們更關注相關性本身而不是相關的原因。這種做法在大資料分析中很常見。要找出到底是什麼原因導致了某種結果是很困難的,或許根本不可能。而發現兩件事物之間的相關性則要簡單和快速的多。就像Viktor Mayer-Schönberger 和 Kenneth Cukier 在《大資料》這本書中形容的那樣:“因果關係不能被忽略,然而曾作為所有結論出發點的它已經被請下寶座了。”

這種不需要任何理論的純粹的相關性分析方法,其結果難免是脆弱的。如果你不知道相關性背後的原因,你就無法得知這種相關性在什麼情況下會消失。谷歌的流感趨勢出錯的一種解釋是,2012年12月份的媒體上充斥著各種關於流感的駭人故事,看到這些報導之後,即使是健康的人也會跑到網際網路上搜尋相關的詞彙。還有另外一種解釋,就是谷歌自己的搜尋演算法,在人們輸入病症的時候會自動推薦一些診斷結果進而影響到了使用者的搜尋和瀏覽行為。這就好像在足球比賽裡挪動了門柱一樣,球飛進了錯誤的大門。

谷歌將使用新的資料再次校準流感趨勢這個產品,重新來過。這當然是正確的做法。能夠有更多的機會讓我們簡捷的採集和處理大規模的資料,這當然有一百個理由讓人興奮。然而我們必須從上述例子中汲取足夠的教訓,才能避免重蹈覆轍。

統計學家們過去花了200多年,總結出了在認知資料的過程中存在的種種陷阱。如今資料的規模更大了,更新更快了,採集的成本也更低了。但我們不能掩耳盜鈴,假裝這些陷阱都已經被填平了,事實上它們還在那裡。

在1936年,民主黨人Alfred Landon與當時的總統Franklin Delano Roosevelt(富蘭克林.羅斯福——譯者注)競選下屆總統。《讀者文摘》這家頗有聲望的雜誌承擔了選情預測的任務。當時採用的是郵寄問卷調查表的辦法,調查人員雄心勃勃,計劃寄出1000萬份調查問卷,覆蓋四分之一的選民。可以預見,洪水般寄回的郵件將超乎想象,然而《文摘》似乎還樂在其中。8月下旬的時候他們寫到:“從下週起,1000萬張問卷的第一批迴執將會到達,這將是後續郵件洪峰的開始。所有這些表格都會被檢查三次,核對,交叉存檔五份,然後彙總。”

最終《文摘》在兩個多月裡收到了驚人的240萬份回執,在統計計算完成以後,雜誌社宣佈Landon將會以55比41的優勢擊敗Roosevelt贏得大選,另外4%的選民則會投給第三候選人。

然而真實選舉結果與之大相徑庭:Roosevelt以61比37的壓倒性優勢獲勝。讓《讀者文摘》更沒面子的是,觀點調查的先創人George Gallup通過一場規模小的多的問卷,得出了準確得多的預測結果。Gallup預計Roosevelt將穩操勝券。顯然,Gallup先生有他獨到的辦法。而從資料的角度來看,規模並不能決定一切。

觀點調查是基於對投票人的的大範圍取樣。這意味著調查者需要處理兩個難題:樣本誤差和樣本偏差。

樣本誤差是指一組隨機選擇的樣本觀點可能無法真實的反映全部人群的看法。而誤差的幅度,則會隨著樣本數量的增加而減小。對於大部分的調查來說,1000次的訪談已經是足夠大的樣本了。而據報導Gallup先生總共進行了3000次的訪談。

就算3000次的訪談已經很好了,那240萬次不是會更好嗎?答案是否定的。樣本誤差有個更為危險的朋友:樣本偏差。樣本誤差是指一個隨機選擇的樣本可能無法代表所有其他的人;而樣本偏差則意味著這個樣本可能根本就不是隨機選擇的。George Gallup費了很大氣力去尋找一個沒有偏差的樣本集合,因為他知道這遠比增加樣本數量要重要的多。

而《讀者文摘》為了尋求一個更大的資料集,結果中了偏差樣本的圈套。他們從車輛註冊資訊和電話號碼簿裡選擇需要郵寄問卷的物件。在1936年那個時代,這個樣本群體是偏富裕階層的。而且Landon的支持者似乎更樂於寄回問卷結果,這使得錯誤更進了一步。這兩種偏差的結合,決定了《文摘》調查的失敗。Gallup每訪談一個人,《文摘》對應的就能收到800份回執。如此大規模而精確的調查最終卻得出一個錯誤的結果,這的確讓人難堪不已。

如今對大資料的狂熱似乎又讓人想起了《讀者文摘》的故事。現實資料的集合是如此混亂,很難找出來這裡面是否存在樣本偏差。而且由於資料量這麼大,一些分析者們似乎認定取樣相關的問題已經不需要考慮了。而事實上,問題依然存在。

《大資料》這本書的聯合作者,牛津大學網際網路中心的Viktor Mayer-Schönberger教授,曾告訴我他最喜歡的對於大資料集合的定義是“N=所有”,在這裡不再需要取樣,因為我們有整個人群的資料。就好比選舉監察人不會找幾張有代表性的選票來估計選舉的結果,他們會記點每一張選票。當“N=所有”的時候確實不再有采樣偏差的問題,因為取樣已經包含了所有人。

但“N=所有”這個公式對大多數我們所使用的現實資料集合都是成立的嗎?恐怕不是。“我不相信有人可以獲得所有的資料”,Patrick Wolfe說,他是倫敦大學學院的一名計算機學家和統計學教授。

推特(Twitter)就是一個例子。理論上說你可以儲存和分析推特上的每一條記錄,然用後來推匯出公共情緒方面的一些結論(實際上,大多數的研究者使用的都是推特提供的一個名為“消防水龍帶”的資料子集)。然而即使我們可以讀取所有的推特記錄,推特的使用者本身也並不能代表世界上的所有人。(根據Pew網際網路研究專案的結果,在2013年,美國的推特中年輕的,居住在大城市或者城鎮的,黑色皮膚的使用者比例偏高)

我們必須要搞清楚資料中漏掉了哪些人和哪些事,尤其當我們面對的是一堆混亂的現實資料的時候。Kaiser Fung是一名資料分析師和《數字感知》這本書的作者,他提醒人們不要簡單的假定自己掌握了所有有關的資料:“N=所有常常是對資料的一種假設,而不是現實”。

在波士頓有一款智慧手機應用叫做“顛簸的街道”,這個應用利用手機裡的加速度感應器來檢查出街道上的坑窪,而有了這個應用市政工人就可以不用再去巡查道路了。波士頓的市民們下載這個應用以後,只要在城市裡開著車,他們的手機就會自動上傳車輛的顛簸資訊並通知市政廳哪裡的路面需要檢修了。幾年前還看起來不可思議的事情,就這樣通過技術的發展,以資訊窮舉的方式得以漂亮的解決。波士頓市政府因此驕傲的宣佈,“大資料為這座城市提供了實時的資訊,幫助我們解決問題並做出長期的投資計劃”。

“顛簸的街道”在安裝它的裝置中所產生的,是一個關於路面坑窪的地圖。然而從產品設計一開始這張地圖就更偏向於年輕化和富裕的街區,因為那裡有更多的人使用智慧手機。“顛簸的街道”的理念是提供關於坑窪地點的“N=所有”的資訊,但這個“所有”指的是所有手機所能記錄的資料,而不是所有坑窪地點的資料。就像微軟的研究者Kate Crawford指出的那樣,現實資料含有系統偏差,人們需要很仔細的考量才可能找到和糾正這些偏差。大資料集合看起來包羅永珍,但“N=所有”往往只是一個頗有誘惑力的假象而已。

當然這個世界的現實是如果你能靠某個概念掙到錢,就沒人會關心什麼因果關係和樣本偏差。全世界的公司在聽到美國折扣連鎖店Target的傳奇式成功(由紐約時報的Charles Duhigg在2012年報導出來)以後估計都要垂涎三尺。Duhigg解釋了Target公司是如何從它的顧客身上搜集到大量的資料並熟練的加以分析。它對顧客的理解簡直是出神入化。

Duhigg講的最多的故事是這樣的:一名男子怒氣衝衝的來到一家明尼蘇達附近的Target連鎖店,向店長投訴該公司最近給他十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。店長大方的向他道了歉。可不久後店長又收到這名男子的電話要求再次道歉——只是這一次對方告知那個少女確實懷孕了。在她的父親還沒有意識到的時候,Target通過分析她購買無味溼紙巾和補鎂藥品的記錄就猜到了。

這是統計學的魔法嗎?或許還有更世俗一點的解釋。

Kaiser Fung在幫助零售商和廣告商開發類似的工具上有著多年的經驗,他認為“這裡面存在一個嚴重的虛假正面效應的問題”。他指的是我們通常都沒有能夠聽到的無數的反面故事,在那些例子裡沒有懷孕的婦女們也收到了關於嬰兒用品的優惠券。

如果只聽Duhigg講的故事,你可能很容易就覺得Target的演算法是絕對可靠的——每個收到嬰兒連體服和溼紙巾購物券的人都是孕婦。這幾乎不可能出錯。但實際上孕婦能收到這些購物券可能僅僅是因為Target給所有人都寄了這種購物券。在相信Target那些讀心術般的故事之前,你應當問問他們的命中率到底有多高。

在Charles Duhiggs的描述中,Target公司會在給你的購物券中隨機性的摻雜一些無關的東西,比如酒杯的券。否則的話孕婦們可能會發現這家公司的計算機系統在如此深入的探測她們的隱私,進而感到不安。

Fung對此則有另外的解釋,他認為Target這樣做並不是因為給孕婦寄一份滿是嬰兒用品的購物手冊會讓人起疑,而是由於這家公司本來就知道這些手冊會被寄給很多根本沒有懷孕的婦女。

以上這些觀點並不意味著資料分析一無是處,相反它可能是有高度商業價值的。即使能夠把郵寄的準確度提高那麼一點點,都將是有利可圖的。但能賺錢並不意味著這種工具無所不能、永遠正確。

一位名叫John Ioannidis的傳染病學家在2005年發表了一篇論文,題目叫“為什麼大多數被發表的研究結果都是錯誤的”,標題言簡意賅。他的論文中一個核心的思想就是統計學家們所稱的“多重比較問題”。

當我們審視資料當中的某個表象的時候,我們常常需要考慮這種表象是否是偶然產生的。如果這種表象看起來不太可能是隨機產生的時候,我們就稱它是“統計上顯著的”。

當研究者面對許多可能的表象時,多重比較錯誤就可能發生。假設有一個臨床試驗,我們讓部分小學生服用維他命而給其他小學生安慰劑。怎麼判斷這種維他命的效果?這完全取決於我們對“效果”的定義。研究者們可能會考察這些兒童的身高、體重、蛀牙的概率、課堂表現、考試成績甚至是25歲以後的收入或者服刑記錄(長期追蹤觀察)。然後是綜合比較:這種維他命是對窮困家庭的孩子有效,還是對富裕家庭的有效?對男孩有效,還是女孩?如果做足夠多的不同的相關性測試,偶然產生的結果就會淹沒真實的發現。

有很多辦法可以解決上述的問題,然而在大資料中這種問題會更加嚴重。因為比起一個小規模的資料集合來說,大資料的情況下有太多可以用作比較的標準。如果不做仔細的分析,那麼真實的表象與虛假表象之比——相當於訊號噪聲比——很快就會趨近於0.

更糟的是,我們之前會用增加過程透明度的辦法來解決多重比較的問題,也就是讓其他的研究者也知道有哪些假設被測試過了,有哪些反面的試驗結果沒有被發表出來。然而現實資料幾乎都不是透明的。亞馬遜和谷歌,Facebook和推特,Target和Tesco,這些公司都沒打算過跟你我分享他們的所有資料。

毫無疑問,更新、更大、更廉價的資料集合以及強大的分析工具終將產生價值。也確實已經出現了一些大資料分析的成功例項。劍橋的David Spiegelhalter提到了谷歌翻譯,這款產品統計分析了人類已經翻譯過的無數文件,並在其中尋找出可以自己複製的模式。谷歌翻譯是計算機學家們所謂的“機器學習”的一個應用,機器學習可以在沒有預先設定程式設計邏輯的條件下計算出驚人的結果。谷歌翻譯是目前所知的最為接近”無需理論模型、純資料驅動的演算法黑盒子”這一目標的產品。用Spiegelhalter的話來說,它是“一個令人驚訝的成就”。這一成就來自於對海量資料的聰明的處理。

然而大資料並沒有解決統計學家和科學家們數百年來所致力的一些難題:對因果關係的理解,對未來的推演,以及如何對一個系統進行干預和優化。

倫敦皇家學院的David Hand教授講過一句話,“現在我們有了一些新的資料來源,但是沒有人想要資料,人們要的是答案”。

要使用大資料來得到這樣的答案,還需要在統計學的方法上取得大量長足的進展。

UCL的Patrick Wolfe說,“大資料就好像是蠻荒的美國西部。那些頭腦靈活野心勃勃的人會想盡辦法利用一切可能的工具,從這些資料中淘出點值錢的東西來,這很酷。但目前我們做的還有些盲目。”

統計學家們正爭先恐後的為大資料開發新的工具。這些新的工具當然很重要,但它們只有在吸取而不是遺忘過去統計學精髓的基礎上才能成功。

最後,我們再回頭來看看大資料的四個基礎信條。
其一,如果簡單的忽略掉那些反面的資料,比如Target的懷孕預測演算法,那麼我們很容易就會過高的估計演算法的精確度。
其二,如果我們在一個固定不變的環境裡做預測,你可以認為因果關係不再重要。而當我們處在一個變化的世界中(例如流感趨勢預測所遇到的那樣),或者是我們自己就想要改變這個環境,這種想法就很危險了。
其三,“N=所有”,以及取樣偏差無關緊要,這些前提在絕大多數的實際情況下都是不成立的。
最後,當資料裡的假像遠遠超過真相的時候,還持有“資料足夠大的時候,就可以自己說出結論了”這種觀點就顯得過於天真了。

大資料已經到來,但它並沒有帶來新的真理。現在的挑戰是要吸取統計學中老的教訓,在比以前大得多的資料規模下去解決新的問題、獲取新的答案。

via: 199it.com 摘自: 譯言