大資料的反思

yanke_shanghai發表於2016-04-01

自2011年以來,大資料旋風以“迅雷不及掩耳之勢”席捲中國。毋庸置疑,大資料已然成為繼雲端計算、物聯網之後新一輪的技術變革熱潮,不僅是資訊領域,經濟、政治、社會等諸多領域都“磨刀霍霍”向大資料,準備在其中逐得一席之地。

  中國工程院李國傑院士更是把大資料提升到戰略的高度,他表示資料是與物質、能源一樣重要的戰略資源。從資料中發現價值的技術正是最有活力的軟技術,在資料技術與產業上的落後,將使我們像錯過工業革命機會一樣延誤一個時代。

  在這樣的認知下,“大資料”日趨變成大家“耳熟能詳”的熱詞。圖1所示的是谷歌趨勢(Google Trends)顯示的有關大資料熱度的趨勢,從圖1中可以看到,在未來的數年裡,“大資料”的熱度可能還是“高燒不退”(圖1中虛線為未來趨勢)。

  大資料的反思

  圖1 大資料趨勢

  在大資料熱火朝天前行的路上,多一點反思,多一份冷靜,或許能讓這路走的更好、更遠?例如,2014年4月,大名鼎鼎的《紐約時報》發表題為《大資料帶來的八個(不,是九個!)問題》(Eight (No, Nine!) Problems With Big Data)”的反思文章其中文中的第九個問題,就是所謂的“大資料的炒作(we almost forgot one last problem: the hype)”。同樣為重量級的英國報刊《財經時報》(Financial Times,FT)也刊發了類似反思式的文章“大資料:我們正在犯大錯誤嗎?(Big data: are we making a big mistake?)”

  在大資料熱炒之中,大資料的價值是否被誇大了?是否存在人造的“心靈雞湯”?大資料技術便利帶來的“收之桑榆”,是否也存在自己的副作用——“失之東隅”——個人的隱私何以得到保障?大資料熱炒的“繁華過盡”,資料背後的巨大價值是否還能“溫潤依舊”?在眾聲喧譁之中,我們需要冷靜審慎地思考上述問題。

  太多的“唐僧式”的說教,會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事(或稱段子),從這些小故事中,可對熱炒的大資料反思一下,這或許能讓讀者更加客觀地看待大資料。有些小故事與結論之間的對應關係,或許不是那麼妥帖,諸位別太較真,讀一讀、樂一樂、想一想就好!

  故事01:醉漢路燈下找鑰匙——大資料的研究方法可笑嗎?

  一天晚上,一個醉漢在路燈下不停地轉來轉去,警察就問他在找什麼。醉漢說,我的鑰匙丟了。於是,警察幫他一起找,結果路燈周圍找了幾遍都沒找到。於是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這裡來找什麼?醉漢振振有辭:因為只有這裡有光線啊!

  大資料的反思

  圖2 醉漢路燈下找鑰匙

  這個故事很簡單,看完這個故事,有人可能會感嘆醉漢的“幼稚”、“可笑”。但不好笑的是,“烏鴉笑豬黑,自己不覺得”,這個故事也揭示了一個事實:在面臨複雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的範圍和領域內尋找答案,哪怕這個答案和自己的領域“相隔萬里”!

  還有人甚至認為,醉漢找鑰匙的行為,恰恰就是科學研究所遵循的哲學觀。前人的研究成果,恰是是後人研究的基石,也即這則故事中的“路燈”。到路燈下找鑰匙,雖看來有些荒唐,但也是“無奈之下”的明智之舉。

  資料那麼大,價值密度那麼低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?

  沃頓商學院著名教授、紐約時報最佳暢銷書作者喬納?伯傑(Jonah Berger)從另外一個角度,解讀這個故事在這裡,浩瀚的黑夜就是如同全資料,“鑰匙”就好比是大資料分析中我們要找到的價值目標,他認為,“路燈”就好比我們要達到這個目標的測量“標尺”,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的“鑰匙”,是非常困難的!在我們痴迷於某項自己熟悉的特定測量標尺之前,一定要提前審視一下,這個測量標尺是否適合幫助我們找到那把“鑰匙”,如果不能,趕快換一盞“街燈”吧!

  如果在黑暗中丟失的鑰匙,是大資料中的價值,那這個價值也太稀疏了吧。下面的故事,讓我們聊聊大資料的價值。

  故事02:顛簸的街道——對不起,“n=All”只是一個幻覺

  波士頓市政府推薦自己的市民,使用一款智慧手機應用——“顛簸的街道(Street Bump,網站訪問連結:http://www.streetbump.org/)”。這個應用程式,可利用智慧手機中內建的加速度感測器,來檢查出街道上的坑窪之處——在路面平穩的地方,感測器加速度值小,而在坑坑窪窪的地方,感測器加速度值就大。熱心的波士頓市民們,只要下載並使用這個應用程式後,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路,而是開啟電腦,就能一目瞭然的看到哪些道路損壞嚴重,哪裡需要維修,如圖3所示。

  大資料的反思

  圖3 顛簸的街道

  波士頓市政府也因此驕傲地宣佈,“大資料,為這座城市提供了實時的資訊,它幫助我們解決問題,並提供了長期的投資計劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞這是眾包(Crowdsourcing)改善政府功能的典範之作。

  眾包是《連線》雜誌記者Jeff Howe於2006年發明的一個專業術語,用來描述一種新的商業模式。它以自由自願的形式外包給非特定的大眾網路的做法。眾包利用眾多志願員工的創意和能力——這些志願員工具備完成任務的技能,願意利用業餘時間工作,滿足於對其服務收取小額報酬,或者暫時並無報酬,僅僅滿足於未來獲得更多報酬的前景。

  然而,從一開始,“顛簸的街道”的產品設計就是有偏的(bias),因為使用這款App的物件,“不經意間”要滿足3個條件:(1)年齡結構趨近年輕,因為中老年人愛玩智慧手機的相對較少;(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;(3)有錢,還得有閒。前面兩個條件這還不夠,使用者還得有“閒心”, 想著開車時開啟“顛簸的街道”這個App。想象一下,很多年輕人的智慧手機安裝的應用程式數量可能兩位數以上,除了較為常用的社交軟體如Facebook或Twitter(中國使用者用得較多的是微博、微信等)記得開機執行外,還有什麼公益軟體“重要地”一開車就記得開啟?

  “顛簸的街道”的理念在於,它可以提供 “n=All(所有)”個坑窪地點資訊, 但這裡的“n=All(所有)”也僅僅是滿足上述3個條件的使用者記錄資料,而非“所有坑窪點”的資料,上述3個條件,每個條件其實都過濾了一批樣本,“n=All”註定是不成立的。在一些貧民窟,可能因為使用手機的、開車的、有閒心的App使用者偏少,即使有些路面有較多坑窪點,也未必能檢測出來。

  《大資料時代》的作者舍恩伯格教授常用“n=All”,來定義大資料集合。如果真能這樣,那麼就無需取樣了,也不再有采樣偏差的問題,因為取樣已經包含了所有資料。

  暢銷書《你的數字感:走出大資料分析與解讀的誤區》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國紐約大學統計學教授Kaiser Fung,就毫不客氣地提醒人們,不要簡單地假定自己掌握了所有有關的資料: “N=All(所有)”常常僅僅是對資料的一種假設,而不是現實。

  微軟-紐約首席研究員Kate Crawford也指出,現實資料是含有系統偏差的,通常需要人們仔細考量,才有可能找到並糾正這些系統偏差。大資料,看起來包羅永珍,但“n=All”往往不過是一個頗有誘惑力的假象而已。

  “n=All”,夢想很豐滿,但現實很骨感!

  但即使具備全資料,就能輕易找到隱藏於資料背後的有價值資訊嗎?請接著看下面的故事。

  故事03:園中有金不在金——大資料的價值

  人們在描述大資料時,通常表明其具備4個V特徵,即4個以V為首字母的英文描述:Volume(體量大)、Variety(模態多)、Velocity(速度快)及Value(價值大)。前三個V,本質上,是為第四個V服務的。試想一下,如果大資料裡沒有我們希望得到的價值,我們為何還辛辛苦苦這麼折騰前3個V?

  英特爾中國研究院院長吳甘沙先生說,“鑑於大資料資訊密度低,大資料是貧礦,投入產出比不見得好。”《紐約時報》著名科技記者Steve Lohr,在其採訪報導“大資料時代(The Age of Big Data)”中表明,大資料價值挖掘的風險還在於,會有很多的“誤報”發現,用史丹佛大學統計學教授Trevor Hastie的話來說,就是“在資料的大幹草垛中,發現有意義的“針”,其困難在於“很多幹草看起來也像針(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”

  針對大資料的價值,李國傑院士藉助中國傳統的寓言故事《園中有金》,從另外一個角度,說明大資料的價值,寓言故事是這樣的:

  有父子二人,居山村,營果園。父病後,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無所得,甚悵然。是年秋,園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。

  人們總是期望,能從大資料中挖掘出意想不到的“大價值”。可李國傑院士認為,實際上,大資料的價值,主要體現在它的驅動效應上,大資料對經濟的貢獻,並不完全反映在大資料公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。

  大資料是典型的通用技術,理解通用技術的價值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,並非是自己釀造的蜂蜜,而是蜜蜂傳粉對農林業的貢獻——你能說秋天的累累碩果,沒有蜜蜂的一份功勞?

  回到前文的小故事,兒子翻地的價值,不僅在於翻到園中的金子,更是在於翻地之後,促進了秋天果園的豐收。在第03個小故事中,醉漢黑暗中尋找的鑰匙,亦非最終的價值,通過鑰匙開啟的門才是。

  對於大資料研究而言,一旦資料收集、儲存、分析、傳輸等能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,也極大地推動了諸如計算機軟硬體、資料分析等行業的發展,大資料的價值也已逐步體現。

  李國傑院士認為,我們不必天天期盼奇蹟出現,多做一些“樸實無華”的事,實際的進步就會體現在紮紮實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大資料成功案例。但從事大資料行業的人士,應保持清醒的頭腦:無華是常態,精彩是無華的質變。

  如果把“大資料”比作農夫父子院後的那片土地,那麼土地的面積越大,會不會能挖掘出的“金子”就越多呢?答案還真不是,下面的故事我們說說大資料的大小之爭。

  故事04:蓋洛普抽樣的成功——大小之爭,“大”資料一定勝過小抽樣嗎?

  1936年,民主黨人艾爾弗雷德?蘭登(Alfred Landon)與時任總統富蘭克林·羅斯福(Franklin Roosevelt)競選下屆總統。《文學文摘》(The Literary Digest)這家頗有聲望的雜誌承擔了選情預測的任務。之所以說它“頗有聲望”,是因為《文學文摘》曾在1920年、1924年、1928年、1932年連續4屆美國總統大選中,成功地預測總統寶座的歸屬。

  1936年,《文學文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調查,不同於前幾次的調查,這次調查把範圍擴充得更廣。當時大家都相信,資料集合越大,預測結果越準確。《文學文摘》計劃寄出1000萬份調查問卷,覆蓋當時四分之一的選民。最終該雜誌在兩個多月內收到了驚人的240萬份回執,在統計完成以後,《文學文摘》宣佈,艾爾弗雷德?蘭登將會以55比41的優勢,擊敗富蘭克林·羅斯福贏得大選,另外4%的選民則會零散地投給第三候選人。

  然而,真實的選舉結果與《文學文摘》的預測大相徑庭:羅斯福以61比37的壓倒性優勢獲勝。讓《文學文摘》臉上掛不住的是,新民意調查的開創者喬治·蓋洛普(George Gallup),僅僅通過一場規模小得多的問卷——一個3000人的問卷調查,得出了準確得多的預測結果:羅斯福將穩操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學文摘》240萬的“大”調查,實在讓專家學者和社會大眾跌破眼鏡。

  顯然,蓋洛普有他獨到的辦法,而從資料體積大小的角度來看,“大”並不能決定一切。民意調查是基於對投票人的大範圍取樣。這意味著調查者需要處理兩個難題:樣本誤差和樣本偏差。

  在過去的200多年裡,統計學家們總結出了在認知資料的過程中存在的種種陷阱(如樣本偏差和樣本誤差)。如今資料的規模更大了,採集的成本也更低了,“大資料”中依然存在大量的“小資料”問題,大資料採集同樣會犯小資料採集一樣的統計偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經被填平了,事實上,它們還都在,甚至問題更加突出。

  蓋洛普成功的法寶在於,科學地抽樣,保證抽樣的隨機性,他沒有盲目的擴大調查面積,而是根據選民的分別特徵,根據職業、年齡、膚色等在3000人的比重,再確定電話訪問、郵件訪問和街頭調查等各種方式所在比例。由於樣本抽樣得當,就可以做到“以小見大”、“一葉知秋”。

  《文學文摘》的失敗在於,取樣存在嚴重偏差,它的調查物件主要鎖定為它自己的訂戶。雖然《文學文摘》的問卷調查數量不少,但它的訂戶多集中在中上階層,樣本從一開始就是有偏差的(sample bias),因此,推斷的結果不準,就不足為奇了。而且民主黨人艾爾弗雷德?蘭登的支持者,似乎更樂於寄回問卷結果,這使得調查的錯誤更進了一步。這兩種偏差的結合,註定了《讀者文摘》調查的失敗。

  我們可以類比一下《文學文摘》的調查模式,試想一樣,如果在中國春運來臨時,在火車上調查,問乘客是不是買到票了,即使你調查1000萬人,這可是大資料啊,結論毫無意外地是都買到了,但這個結果無論如何都是不科學的,因為樣本的選取是有偏的。

  當然,取樣也是有缺點的,如果取樣沒有滿足隨機性,即使百分之幾的偏差,就可能丟失“黑天鵝事件”的訊號,因此在全資料集存在的前提下,全資料當然是首選(但從第02故事中,我們可以看到,全資料通常是無法得到的)。對針對資料分析的價值,英特爾中國研究院院長吳甘沙先生給出了一個排序:全資料>好取樣資料>不均勻的大量資料。

  大資料分析技術運用得當,能極大地提升人們對事物的洞察力(insight),但技術和人誰在決策(decision-making)中起更大作用?在下面的“點球成金”小故事,我們聊聊這個話題。

  故事05:點球成金——資料流PK球探,誰更重要?

  《點球成金》(Moneyball)又是一例資料分析的經典故事:

  長期以來,美國職業棒球隊的教練們依賴慣例規則是,依據球員的“擊球率(Batting Average, AVG)”(其值等於安打數/打數),來挑選心儀的球員。而奧克蘭“運動家球隊”的總經理比利?比恩(Billy Beane)卻另闢新徑,採用上壘率指標(On-Base Percentage, OBP)來挑選球員,OBP代表一個球員能夠上壘而不是出局的能力。採用上壘率來選拔人才,並非毫無根據。通過精細的數學模型分析,比利?比恩發現,高“上壘率”與比賽的勝負存在某種關聯(corelation),據此他提出了自己的獨到見解,即一個球員怎樣上壘並不重要,不管他是地滾球還是三跑壘,只要結果是上壘就夠了。在廣泛的批評和質疑聲中,比恩通過自己的資料分析,創立了“賽伯計量學”(Sabermerrics)。據此理論,比恩依據“高上壘率”選取了自己所需的球員,這些球員的身價遠不如其他知名球員,但比利?比恩卻能帶領這些球員在2002年的美國聯盟西部賽事中奪得冠軍,並取得了20場連勝的戰績。

  大資料的反思

  圖4 點球成金

  這個故事講得是數量化分析和預測對棒球運動的貢獻,吳甘沙先生認為,它在大資料背景下出現了傳播的誤區:

  第一,它頻繁出現在諸如舍恩伯格《大資料時代》之類的圖書中,其實這個案例並非大資料案例,而是早已存在的資料思維和方法。在“點球成金”案例中的資料,套用大資料的4V特徵,基本上,無一符合。

  第二,《點球成金》無論是小說,還是拍出來的同名電影,都刻意或無意忽略了球探的作用。從讀者/觀眾的角度來看,奧克蘭“運動家球隊”的總經理比利·比恩完全運用了資料量化分析取代了球探。而事實上,在運用這些資料量化工具的同時,比恩也增加了球探的費用,“軍功章裡”有資料分析的一半,也有球探的一半。

  目前的大資料時代,就有這麼兩個流派,一派是技術主導派,他們提出“萬物皆數”,要麼數字化,要麼死亡(孫正義在對日本企業界的演講上所言),他們認為技術在決策中佔有舉足輕重地作用。另一派是技術為輔派,他們認為,技術僅僅是為人服務的,屬於為人所用的眾多工具的一種,不可誇大其作用。

  針對《點球成金》這個案例,比利?比恩的擁躉者就屬於“資料流黨”,而更強調球探作用的則歸屬於“球探黨”。

  球探黨Bill Shanks在其所著的《球探的榮耀:論打造王者之師的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ballteam)中,對資料流黨的分析做出了強有力地回應。他認為,球探對運動員定性指標(如競爭性、抗壓力、意志力,勤奮程度等)的衡量,是少數結構化資料(如上壘率等)指標無法量化刻畫的。

  和《點球成金》觀點針鋒相對的是,Bill Shanks更認可球探的作用,他把球探的作用命名為“勇士”哲學。對於勇士來說,資料分析只是眾多“刀槍棍棒”兵刃中的一種,無需奉之如圭臬,真正能“攻城略地”的還是需要勇士。比如說,運動家棒球隊雖然在資料分析的指導下,獲得了震驚業界的好成績,然而他們並沒有取得季後賽的勝利,也沒有奪取世界冠軍,這說明,資料分析雖重要,但人的作用更重要!

  從第01故事的分析中,我們知道,大資料分析的第一層作用就是,面向過去,發現潛藏在資料表面之下的歷史規律或模式,也就是說達到描述性分析。而為了讓讀者相信資料分析的能力,灌輸一些“心靈雞湯(或稱洗腦)”,是少不了的,哪怕它是假的!

  故事06:大資料都是騙人的啊——大資料預測得準嗎?

  從前,有一頭不在風口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著。每天都有人時不時地扔進來一些好吃的東西,小豬覺得日子愜意極了!高興任性時,可在豬圈泥堆裡打滾耍潑。憂傷時,可趴在豬圈的護欄上,看夕陽西下,春去秋來,歲月不爭。“豬”生如此,夫復何求?

  根據過往數百天的大資料分析,小豬預測,未來的日子會一直這樣“波瀾不驚”地過下去,直到它從小豬長成肥豬……在春節前的一個下午,一次血腥的殺戮改變了豬的信念:尼瑪大資料都是騙人的啊……慘叫嘎然而止。

  大資料的反思

  圖5 大資料預測:都是騙人的

  這則“人造寓言”是由《MacTalk·人生超程式設計》一書作者池建強先生“杜撰”而成的。池先生估計是想用這個搞笑的小寓言“黑”一把大資料。

  我們知道,針對大資料分析,無非有兩個方面的作用:(1)面向過去,發現潛藏在資料表面之下的歷史規律或模式,稱之為描述性分析(Deive Analysis);(2)面向未來,對未來趨勢進行預測,稱之為預測性分析(Predictive Analysis)。把大資料分析的範圍從“已知”擴充 到了“未知”,從“過去” 走向 “將來”,這是大資料真正的生命力 和“靈魂” 所在。

  那頭“悲催”的豬,之所以發出“大資料都是騙人的啊”吶喊,是因為它的得出了一個錯誤的“歷史規律”:根據以往的資料預測未來,它每天都會過著“飯來張口”的豬一般的生活。但是沒想到,會發生“黑天鵝事件”——春節的殺豬事件。

  黑天鵝事件(Black Swan Event) 通常是指,難以預測的但影響甚大的事件,一旦發生,便會引起整個局面連鎖負面反應甚至顛覆。讀者可閱讀納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的暢銷書《黑天鵝》,來獲得對“黑天鵝事件”更多的理解。

  其實,我們不妨從另外一個角度來分析一下,這個搞笑的小寓言在“黑”大資料時,也有失敗的地方。通過閱讀知道,舍恩伯格教授在其著作《大資料時代》的第一個核心觀點就是:大資料即全資料(即n=All,這裡n為資料的大小),其旨在收集和分析與某事物相關的“全部”資料,而非僅分析“部分”資料。

  那頭小豬,僅僅著眼於分析它“從小到肥”成長資料——區域性小資料,而忽略了“從肥到沒”的歷史資料。資料不全,結論自然會偏,預測就會不準。

  要不怎麼會有這樣的規律總結呢:“人怕出名,豬怕壯”。豬肥了,很容易先被抓來殺掉。這樣的“豬”血淚史,天天都上演的還少嗎?上面的小寓言,其實是告訴我們:資料不全,不僅坑爹,還坑命啊!

  那麼,問題來了,大資料等於全資料(即n=All),能輕易做到嗎?

  故事07:啤酒和尿布:經典故事是偽造的,你知道嗎?

  這是一個關於零售帝國沃爾瑪的故事。 在一次例行的資料分析之後, 研究人員突然發現: 跟尿布一起搭配購買最多的商品,竟是啤酒!

  尿布和啤酒,聽起來風馬牛不相及,但這是對歷史資料進行挖掘的結果,反映的是資料層面的規律。這種關係令人費解,但經過跟蹤調查,研究人員發現,一些年輕的爸爸常到超市去購買嬰兒尿布,有30%~40%的新爸爸,會順便買點啤酒犒勞自己。隨後,沃爾瑪對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。

  上面這個案例,出自於塗子沛先生的所著的大資料暢銷書《資料之巔》,在這個案例中,要情節有情節,要資料,有資料,誓言旦旦,不容你置疑。但是,這個故事雖經典,但是讓你意想不到的是:

  案例是編造的

  這個經典的“啤酒和尿布” (Beer and Diapers)的案例,不僅是《大資料》類圖書的常客,事實上,它更是無數次流連於“資料探勘”之類的書籍中,特別是用來解釋“關聯規則(Association Rule)”的概念,更是“居家旅行,必備之良藥(周星馳語)”。當前,基本上所有講大資料應用,都會捎帶講上這個經典案例,要求大家多研究“相關性”,少研究因果關係!但實在掃興的是,這個案例僅是一碗資料分析的“心靈雞湯”——聽起來很爽,但信不得!

  實踐是檢驗真理的唯一標準。如果這個故事是真的,按理說,應該給超級市場以無限啟發才對,可實際上,不管是中國,還是在美國,在超市裡面觀察一下,就會發現,根本沒有類似的物品擺放,相近的都很少。

  故事性強,事出有因。據吳甘沙先生透露,它是Teradata公司一位經理編出來的“故事”,目的是讓資料分析看起來更有力,更有趣,而在歷史上從沒有發生過,感興趣的讀者可以自己參閱文獻。但公平地講,這個故事對資料探勘的普及意義重大,僅從教育意義上看,仍不失為一個好故事。

  2.相關性並非什麼大事

  即便真的有這個案例,也不說明資料分析出來的“相關性”,有什麼特別的神奇之處。舍恩伯格教授的《大資料時代》核心觀點之一就是:趾高氣揚的因果關係光芒不再,卑微的相關關係將被“翻身做主人”,知道“是什麼”就夠了,沒必要知道“為什麼”。但需要我們更為深入瞭解的事實是:“要相關,不要因果”,這個觀點其實並非舍恩伯格首先提出的。最早的提出者應為《連線》(Wired)主編Chris Anderson ,2008年他在題為 “理論的終結:資料洪流讓科學方法依然過時(End of Theory: the Data Deluge Makes the Scientific Method Obsolete)” 文章中,率先提出:在PB時代,我們可以說,有相關性足夠了(Petabytes allow us to say: "Correlation is enough)"。

  大資料的反思

  圖6 連線雜誌:理論的終結

  “要相關,不要因果”的觀點,並不受學術界待見。甚至,《大資料時代》的中文版翻譯者周濤亦在序言裡說,“放棄對因果關係的追求,是人類的墮落”。對於這個觀點,李國傑院士認為:在大資料中,看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,相關性本身並沒有多大價值,關鍵是找對了“相關性”背後的理由,才是新知識或新發現。

  大資料分析的第二個功能,或者說更為的核心功能在於,預測。預測主要用於對未來進行籌劃,大到產業的佈局,小到流感的預警,均可用預測。但是對未來的預測,能準嗎?

  故事08:谷歌流感預測:預測是如何失效的?

  2009年2月,谷歌公司的工程師們在國際著名學術期刊《自然》上發表了一篇非常有意思的論文:《利用搜尋引擎查詢資料檢測禽流感流行趨勢》,並設計了大名鼎鼎的流感預測系統(Google Flu Trends,GFT,訪問網址為:www.google.org/flutrends/)。

  GFT預測H1N1流感的原理非常樸素:如果在某一個區域某一個時間段,有大量的有關流感的搜尋指令,那麼,就可能存在一種潛在的關聯:在這個地區,就有很大可能性存在對應的流感人群,相關部門就值得釋出流感預警資訊。

  GFT監測並預測流感趨勢的過程僅需一天,有時甚至可縮短至數個小時。相比而言,美國疾病控制與預防中心(Center for Disease Control and Prevention,CDC)同樣也能利用採集來的流感資料,釋出預警資訊。但CDC的流感預測結果,通常需要滯後兩週左右才能得以釋出。但對於一種飛速傳播的疾病(如禽流感等),疫情預警滯後釋出,後果可能是致命的。

  GFT一度被認為是大資料預測未來的經典案例,給很多人開啟了一扇未來的視窗。根據這個故事,大資料的佈道者們給出了4個令自己滿意的結論:

  由於所有資料點都被捕捉到,故傳統的抽樣統計的方法完全可以被淘汰。換句話說,做到了“n=All”;

  無需再尋找現象背後的原因,只需要知道某兩者之間的統計相關性就夠用了。針對這個案例,只需知道“大量有關流感的搜尋指令”和“流感疫情”之間存在相關性就夠了。

  不再需要統計學模型,只要有大量的資料就能完成分析目的,印證了《連線》主編Chris Anderson 提出的“理論終結”的論調。

  大資料分析可得到驚人準確的結果。GFT的預測結果和CDC公佈的真實結果相關度高達96%。

  但據英國《財經時報》(FT)援引劍橋大學教授David Spiegelhalter毫不客氣的評價說 [3],這四條 “完全是胡說八道(complete bollocks. Absolute nonsense)”。

  針對前3條觀點的不足之處,前文故事已經涉及到了,不再贅言。針對第4條,我們有必要再解析一下——GFT預測是如何失效的?

  谷歌工程師們開發的GFT,可謂轟動一時,但好景不長,相關論文發表4年後,2013年2月13日,《自然》發文指出,在最近(2012年12月)的一次流感爆發中谷歌流感趨勢不起作用了。GFT預測顯示某次的流感爆發非常嚴重,然而疾控中心(CDC)在彙總各地資料以後,發現谷歌的預測結果比實際情況要誇大了幾乎一倍,如圖7所示。

  大資料的反思

  圖7 GFT流感預測失準

  研究人員發現,問題的根源在於,谷歌工程師並不知道搜尋關鍵詞和流感傳播之間到底有什麼關聯,也沒有試圖去搞清楚關聯背後的原因,只是在資料中找到了一些統計特徵——相關性。這種做法在大資料分析中很常見。為了提高GFT的預測準確性,谷歌工程師們不斷地微調預測演算法,但GFT每一次演算法微調,都是為了修補之前的測不準,但每次修補又都造成了另外的誤差。

  谷歌疫情之所以會誤報,還因為大資料分析中存在“預測即干涉”的問題。量子物理創始人之一維爾納?海森堡(Werner Heisenberg),曾在1927年的一篇論文中指出,在量子世界中,測量粒子位置,必然會影響粒子的速度,即存在“測不準原理”。也就是說,在量子尺度的微距世界中,“測量即干涉”。如今,在媒體熱炒的“大資料”世界中,類似於“測不準原理”,即存在“預測即干涉”悖論。

  這個“預測即干涉”悖論和“菜農種菜”的現象有“曲藝同工”之處:當年的大白菜賣價不錯(歷史資料),預計明年的賣價也不錯(預測),於是眾多菜農在這個預測的指導下,第二年都去種大白菜(採取行動),結果是,菜多價賤傷農(預測失敗)。

  進一步分析就可發現,GFT預測失準在很大程度上是因為,一旦GFT提到了有疫情,立刻會有媒體報導,就會引發更多相關資訊搜尋,反過來強化了GFT對疫情的判定。這樣下去,演算法無論怎麼修補,都無法改變其愈發不準確的命運。

  對GFT預測更猛烈的攻擊,來自著名期刊《科學》。2014年3月,該雜誌發表由哈佛大學、美國東北大學的幾位學者聯合撰寫的論文“谷歌流感的寓言:大資料分析中的陷阱(The parable of Google Flu: traps in big data analysis)”,他們對谷歌疫情預測不準的問題做了更為深入地調查,也討論了大資料的“陷阱”本質。《科學》一文作者認為:大資料的分析是很複雜的,但由於大資料的收集過程,很難保證有像傳統“小資料”那樣縝密,難免會出現失準的情況,作者以谷歌流感趨勢失準為例,指出“大資料傲慢(Big Data Hubris)”是問題的根源。

  《科學》一文還認為,“大資料傲慢(Big Data Hubris)”還體現在,存在一種錯誤的思維方式,即誤認為大資料模式分析出的“統計學相關性”,可以直接取代事物之間真實的因果和聯絡,從而過度應用這種技術。這就對那些過度推崇“要相關,不要因果”人群,提出了很及時的警告。畢竟,在某個時間很多人搜尋“流感”,不一定代表流感真的暴發,完成有可能只是上映了一場關於流感的電影或流行了一個有關流感的段子。

  果殼網有一篇對《科學》一文深度解讀的文章:“資料並非越大越好:谷歌流感趨勢錯在哪兒了?”,感興趣的讀者可以前去圍觀。

  蘇萌、柏林森和周濤等人合著的《個性化:商業的未來》,他們強調,“個人化”服務是未來最有前途的商業模式。可這裡有個問題,提供“個人化”服務,就需要了解顧客的“個性化資訊”,如果顧客許可使用個人資訊的,那麼這種個性化服務是貼心的,如果沒有許可呢?

  下面這個故事就是一則有關商品個性化推薦的,但它體現出來的是資料分析的智慧,還是愚蠢呢?

  故事09:Target超市預測女孩懷孕:“大資料”智慧,還是愚蠢?

  2012年2月16日,《紐約時報》刊登了Charles Duhigg撰寫的一篇題為《這些公司是如何知道您的祕密的》(How Companies Learn Your Secrets)的報導。文中介紹了這樣一個故事:

  一天,一位男性顧客怒氣衝衝地來到一家折扣連鎖店Target(中文常譯作“塔吉特”,為僅次於沃爾瑪的全美第二大零售商),向經理投訴,因為該店竟然給他還在讀高中的的女兒,郵寄嬰兒服裝和孕婦服裝的優惠券。

  但隨後,這位父親與女兒進一步溝通發現,自己女兒真的已經懷孕了。於是致電Target道歉,說他誤解商店了,女兒的預產期是8月份。

  一家零售商是如何比一位女孩的親生父親更早得知其懷孕訊息的呢?這裡就需要用到“關聯規則+預測推薦”技術。

  事實上,每位顧客初次到Target刷卡消費時,都會自動獲得一個唯一顧客識別編號(ID)。以後,顧客再次光臨Target消費時,計算機系統就會自動記錄顧客購買的商品、時間等資訊。再加上從其它管道取得的統計資料,Target便能形成一個龐大資料庫,運用於分析顧客的喜好與需求。

  有了資料,特別是有了“大”容量的資料,後面的問題就簡單了。Target的資料分析師,開發了很多預測模型,其中懷孕預測模型(pregnancy-prediction model)就是其中的一個。Target通過分析這位女孩的購買記錄——無味溼紙巾和補鎂藥品,就預測到了這為女顧客可能懷孕了,而懷孕了,未來就有可能需要購置嬰兒服裝和孕婦服裝,多麼貼心的商店啊。但是需要我們注意的是:

  這是“大”資料的傲慢,而非聰慧。

  由於故事極其具戲劇性——親生爸爸居然比不上一臺電腦更瞭解自己的女兒,因此,這個故事往往被用來作為“資料比人更瞭解人”的證明,並在當下,被用來論證大資料的功力。國內有的新聞媒體,對大資料的理解似是而非,針對這個案例的報導標題就是《大資料的功力:比父親更瞭解女兒衝擊大賣場》。大資料的無所不能的“傲慢”,躍然紙上。

  或許“旁觀者清”,資訊領域外的上海金融與法律研究院研究員劉遠舉認為,這案例並不能說明,資料比人更“聰慧”,更瞭解人,恰好相反,這證明計算機是“愚蠢的”:還在讀高中的女兒,顯然想保護自己的隱私,並不想父親知道,但“愚蠢的”計算機卻自作主張,把孕婦優惠卷寄寄到了她家裡,結果被爸爸逮個正著。

  這正是(大)資料的另一種傲慢——好像有了(大)資料,就可以“君臨天下”,對顧客的理解就可做到出神入化,對顧客的隱私就可以肆無忌憚。

  2.這並非大資料的案例

  進一步分析,我們可以發現,實際上這個例子並不屬於大資料的案例,它不需要太強的計算能力,甚至用一臺普通的電腦就能實施類似的關聯規則分析。很多有關大資料的圖書和文章都把這個案例當作大資料的案例來講,其實是不恰當的。

  大資料一般要具備典型的4個V特徵,Target收集的消費資料屬於典型的結構化資料,即使數量再大,也僅僅滿足4V特徵之一——Volume(體積大)。但是,“資料大”不等於“大資料”。如果光拼體積“大”,那麼早在20年前,天文、物理和生物資訊學的資料,也夠得上是“大資料”了。《紐約時報》的原文,非常“厚道”,通篇沒有提及“big data(大資料)” 字樣。

  3.更重要的是,這個神奇的資料預測故事被人為地灌入了很多“心靈雞湯”。

  資料探勘界的資料分析師、諮詢師們有時候同樣也需要 “心靈雞湯”,勵志自己,忽悠客戶。對此,美國紐約大學統計學教授Kaiser Fung認為[3],很多人在看到這個故事時,都誤認為Target的預測演算法是非常可靠的——幾乎每個收到嬰兒連體服和溼紙巾優惠券的人,都是孕婦。但這是不可能的!更為實際的情況是,孕婦之所以能收到這些購物券,是因為Target給非常多客戶都郵寄了這種購物券。在眾多客戶中,碰巧有那麼一位高中女生“不太可能但卻又真地”懷孕了,碰巧那位父親發現並投訴了,碰巧那位父親發現自己錯了並道歉了,這麼多巧合,“無巧不成書”。因為極具有故事性,所以大家都愛聽。

  各位讀者在相信Target這類讀心術般的故事之前,首先應該先想想,這類商家的預測命中率到底有多高。這裡並不說,資料分析一無是處,相反,資料分析極具商業價值,即使能夠把“直郵(Direct Mail,DM)”的準確度提高一點點,哪怕是1%,對商家而言,都將是有利可圖的。但能賺錢並不意味著這種工具無所不能、永遠正確。

  商家能夠提供個性化服務,確實很貼心,但倘若在利益的趨勢下,商家對顧客的個性化資訊運用不當或越界,就會給顧客帶來不能承受的隱私之痛。下面我們聊聊有關大資料隱私的故事。

  故事10:你的一夜情我知道——大資料的隱私之痛

  Uber(優步,著名的叫車軟體服務公司,乘客可以通過傳送簡訊或是使用移動應用程式來預約車輛,利用移動應用程式時還可以追蹤車輛的位置)曾在官網上釋出一篇題為“榮耀之旅(Rides of Glory,RoG)”的部落格。文中寫到,“我知道,我們不是你們生命中唯一的愛人,我們也知道,你們會在別的什麼地方尋找愛情(we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere)。” Uber稱作的“榮耀之旅(RoG)”——實際上就是所謂的一夜情(one-night stand)代名詞。

  Uber利用資料分析技術,專門篩選出那些在晚上10點到凌晨4點之間的用車服務,並且這些客戶會在四到六小時之後(這段時間足夠完成一場快速的RoG),在距離上一次下車地點大約1/10英里(約160米)以內的地方再次叫車。

  大資料的反思

  圖9 美國大城市一夜情發生率的對比

  根據對這些資料的分析,Uber推斷出那些發生一夜情的時間和地點,並將這些地點在紐約(NYC)、舊金山(SF)、波士頓(Boston)以及其他美ㄈ國城市的地圖上進行標註,得出一夜情頻繁的高發區。資料分析發現,波士頓位於美國“一夜情”之首,而紐約人則顯得比較保守,“一夜情”的比率僅僅為波士頓的1/5。在時間節點上,一夜情“發作”的高頻發段是在週五和週六晚上,如果你的另一半在這個時間點上說自己工作忙要加班,你就要“悠著點”相信。

  當然,Uber此處雖多為開玩笑之舉,但也確實嚴重侵犯了使用者的隱私,在遭到了很多使用者及媒體的的抗議,例如,《紐約時報》發表題為《我們不能信任優步》(We Can’t Trust Uber)。

  在遭到使用者和媒體抗議以後,Uber迅速刪除了這篇部落格,但在這個數字時代,一旦上網,“侯門一入深似海”,踏雪無痕夢難成”。感興趣的讀者仍可訪問網際網路文件收錄網站https://archive.org/,找到這篇文章。

  不可否認的是,大資料時代的到來,為我們的學習、生活帶來諸多便利。但是,收之桑榆,失之東隅。任何事情都有兩面性。目前,人的行為(諸如購物、乘車、甚至遊戲等)已經被數字化了,隱私已經無處可藏!不論是美國斯諾登“稜鏡門”監聽專案的曝光,還是層出不窮的諸如Uber等公司企業洩露客戶資料事件,都向我們發出大資料時代下個人隱私保護的預警。

  中國著名生命倫理學家

  邱仁宗先生認為,大資料技術,與所有技術一樣它本身無所謂“好”“壞”,故它本身在倫理學上是中性的。然而使用它的個人、公司、機構有價值取向的,大資料猶技術如一把雙刃劍,它可以給我們的生活、科研帶來便利,但也能帶來諸如侵犯隱私的消極影響。

  完善的立法,對保護使用者隱私來說極其重要。例如,規定只有使用者需要個性化服務定製的時候,提出需求,大資料公司才能呼叫該使用者的資訊,其他情況下的資訊呼叫都採取匿名的方式,否則就視作侵犯隱私。

  網上有個以“恐怖的大資料”為題的段子,用定披薩餅的流程,把使用者的隱私披露地“一覽無遺”,雖有誇張成分,但在大資料時代,隱私保護的必要性,已經不容置疑了。

  小結

  《舊約·箴言篇》18章17節裡有句話:“先訴情由的,似乎有理。但鄰舍來到,就察出實情”。

  隨著諸如舍恩伯格教授的《大資料時代》、塗子沛先生的《資料之巔》等大作的面世,對世人帶來了“醍醐灌頂”式的教育洗禮,在教育民眾和政府官員接納大資料時代的普及意義上,這些著作,居功至偉。他們書中的很多思維,已被很多大資料的擁躉者奉為圭臬,但任何事情都有兩面性,一味的熱捧,就會帶來認知的偏頗。

  諸如《紐約時報》、《財經時報》、《自然》及《科學》等重量級的反思“鄰舍”的到臨,能讓我們對“大資料”有更為客觀的認知。從他們給出的一各個小故事(小案例或小段子)中,可以促使我們對大資料的熱炒有所反思,從而告誡我們之間,一定保持清醒頭腦,批判性地接受大資料佈道者的思維,切不可將其當作放之四海而皆準的真理。對大資料的過分依賴,就有可能重蹈伊卡洛斯(Icarus)的覆轍。

  大資料的反思

  圖 10 伊卡洛斯之殤

  在希臘神話中,伊卡洛斯是個自負的天神,他是代達羅斯的兒子,一天,在與父親代達羅斯使用蠟和羽毛製造的羽翼逃離克里特島時,由於他過分相信自己的飛行技,故而飛得太高,雙翼上的蠟在太陽照射下融化,羽翼脫落,最終導致自己葬身大海。

  大資料技術就猶如那 “蠟和羽毛”做的翅膀,它可以助我們飛得更高,但倘若過分依賴它,就有葬身大海的風險。我們要學會如何讓大資料為我所用,而不是成為大資料的奴隸。

更多大資料技術分享,請關注微信公眾號:ganhuo1024


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30316686/viewspace-2073852/,如需轉載,請註明出處,否則將追究法律責任。

相關文章