大資料管理通過大量資料採礦,找出潛在的變數和它們之間的因果聯絡,這樣企業可以有針對性地生產和營銷。相比之下,小資料泛指零星的弱訊號。它們往往被當作沒有規範、似乎隨機的偏差或噪音。
被過濾和忽視是小資料的命運,原因是人們沒有現成的概念去定義和解釋它們。可是,沒有小資料,大資料管理會充滿陷阱。
小資料為主,大資料為僕,這是資料管理的正道。
大資料的陷阱
春節就要到了。假如你是一位出車千次無事故的好司機,恰好在朋友家喝了點酒,警察也過年下班了,於是你堅持自己開車回家,盤算著出問題的概率也不過千分之一吧。如果這樣算,你就犯了一個取樣錯誤,因為那一千次出車,你沒喝酒,它們不能和這次混在一起計算。這也是大資料“採礦”常犯的錯。
從1967年第一屆美國超級碗杯橄欖球賽到1997年第三十一屆,只要NFL聯賽出線隊贏,當年的股票就大漲14%以上,AFL聯賽出線隊贏,則至少大跌10%。如果你按照這個指標來買賣股票,就要小心了!1998年,丹佛野馬隊(AFL)贏,當年股市大漲28%;2008年紐約巨人隊(NFL)贏,股市不僅大跌35%,還引發次貸金融危機。
只要有超大樣本和超多變數,我們都可能找到無厘頭式的相關性。它完全符合統計方法的嚴格要求,但二者之間並沒有因果關係。美國政府每年公佈4.5萬類經濟資料。如果你要找失業率和利率受什麼變數影響,你可以羅列10億個假設。我自己的研究經驗也顯示,只要你反覆嘗試不同的模型,上千次後,你一定可以找到統計學意義上成立的相關性。把相關性當作因果關係,這是大資料採礦的另一個陷阱。
我們說,三尺深的水池能淹死人,因為三尺只是平均值。忽略極值,採用平均值,它是大資料採礦第三個常見的陷阱。
博弈論創始人之一,諾伊曼(John von Neumann)曾經戲言:有四個引數,我能畫頭大象,再加一個,我讓大象的鼻子豎起來!大資料“採礦”可能給出新穎的相關性。
但是,脫離了問題的情境,它不但不能保證因果關係,還可能誤導決策。
小資料裡藏著金鑰匙
巴恩斯利(Roger Barnsley)帶他的孩子去我教書的萊橋市參加比賽時發現,摩羯座、水瓶座、雙魚座的孩子天生就是打冰球的,否則怎麼會雙方隊員的生日大多在1月、2月和3月?帶著心理學家的好奇,他研究了加拿大成人隊的隊員生日,發現同樣的規律。不過,巴恩斯利還沒依賴大資料到迷信的程度。
深入調查後他發現,加拿大少年隊劃分組別以1月1日為界。因此,在同一年齡組,那些1~3月出生的孩子自然有生理髮育上的優勢。因為是層層優選、優訓,有起點優勢的孩子就可能不斷成長,主導每個階段的冰球隊伍。只有明白“年齡劃分日”這個小資料,奇異的現象才有科學的解釋。
羅列大量事例,在《偏差》中,格萊德威爾(Malcolm Gladwell)證明小資料的關鍵解碼作用。
小細節解鎖大問題。類似的小資料決定作用出現在不同的現象中。依據大資料,舊金山地區衛生部門根據同性戀人群肝病發病率上升預計愛滋病例也會上升,但這兩種疾病流行正相關的預測失敗。深入調查發現,同性戀對愛滋病越來越持平常心。他們利用新的社交網路,主動張貼自己的情況,避免交叉感染。這次,又是關於行為和動機的小資料解釋了大資料看不到的規律。
小資料這把金鑰匙難找,因為它們基本上是弱訊號,出現的頻率低,往往埋沒在偏差值中,容易被忽視。同樣難的是,它們過去沒有規律性地出現過,人們不熟悉。對不熟悉的現象,人們心理上錯把它們當作不大可能的現象。因此,決策時,人們容易把弱訊號當作背景噪音過濾掉了。例如,假如恐怖分子只學開飛機,不學降落這個弱訊號被關注,美國反恐歷史可能要重寫。
如何正確使用小資料?胡巴德(Douglas Hubbard)建議三種方法:
1)不求完美,只求不斷接近。古希臘人俄如多斯(Eratosthenes)利用兩地中午日光正射和斜射的角度與距離估算出第一個地球周長。誤差很大,但那是一個跨越式的認知進步。
2)找“墊腳石”知識,用類比法提高認識。物理學家費米問學生,芝加哥城裡有多少調琴師?他教學生學會從人口數、家庭數和擁有鋼琴的家庭比例估算開始,推演到鋼琴數量和調琴師大約的比例,再得出調琴師的估值。要點在於不囿於資料限制,學會用已知代換無知,推演估算值。
3)不要簡單化前提條件,但要力求簡單模式。9歲的羅薩(Emily Rosa)和她媽媽一起看電視介紹流行的“氣場療法”。羅薩把測試氣場當作學校的一個科學專案。用兩塊遮擋紙板、幾個直接問題,她採訪和測試了29位氣功物理治療師,證明氣場至多隻是心理作用。羅薩的簡潔實驗設計被美國醫學雜誌(JAMA)刊載。她也成為雜誌最年輕的作者。
求小步完善、類比借鑑和從簡單模型開始,這三步也是對“貝爾斯定理”(Bayes Theorem)最好的運用。有條件概率分佈的“貝爾斯定理”是掌握小資料的核心。
主與僕
關於複雜系統,美國的聖塔菲研究所羅列三個典型特徵:多變數、相互作用,並同時發生。據此,天氣預報是最複雜的資料管理了。
1916年,德國人理查森(Lewis Fry Richardson)嘗試著把大資料化小,把整個德國的天氣分割成縱橫交錯的小矩陣。這樣每個格子裡的天氣對周邊的影響就能簡化了解。層層推進,他試圖得出更靠譜的天氣預測。理查森沒有成功,因為當時的計算力不足。
到1950年,諾爾曼將電腦計算和理查森的方法整合在一起。結果,我們有了越來越可靠的天氣預報。
理查森的小資料價值在於他對氣候現象深刻的理解,並提煉出關鍵要素。諾爾曼的大資料貢獻在於精確運算關鍵要素的動態執行形勢和方向。二者結合,我們才有對氣候的預報能力。
只要整合大、小資料管理的要點和優點,我們就能逐漸完善認知模型,辨別訊號和噪音。就像統計學家博可斯(George Box)所言:所有的模型都是錯的,但有些仍有用。
(作者為加拿大萊橋大學管理學院副教授,復旦大學管理學院EMBA特聘教授)
doubanclaim7073adb25d33199e