美國著名科技歷史學家梅爾文?克蘭茲伯格(Melvin Kranzberg),曾提出過大名鼎鼎的科技六定律,其中第三條定律是這樣的[1]:“技術是總是配“套”而來的,但這個“套”有大有小(Technology comes in packages, big and small)”。

這個定律用在當下,是非常應景的。因為,我們正步入一個“大資料(big data)”時代,但對於以往的“小資料(small data)”,我們能做到“事了拂衣去,深藏身與名”嗎?答案顯然不是。目前,大資料的前途似乎“星光燦爛”,但小資料的價值依然“風采無限”。克蘭茲伯格的第三定律是告訴我們,新技術和老技術的自我革新演變,是交織在一起的。大資料和小資料,他們“配套而來”,共同勾畫資料技術(Data Technology,DT)時代的未來。

對大資料的“溢美之詞”,已被舍恩伯格教授、塗子沛先生等先行者及其追隨者誇得氾濫成災。但正如您所知,任何事情都有兩面性。在眾人都贊大資料很好的時候,我們也需說道說道大資料可能面臨的陷阱,只是為了讓大資料能走得更穩。當在大資料的光暈下,漸行漸遠漸無小資料時,我們也聊聊小資料之美,為的是“大小並行,不可偏廢”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的愛?思量三番再下筷。

下文部分就是供讀者“思量”的材料,主要分為4個部分:(1)哪個V才是大資料最重要的特徵?在這一部分裡,我們聊聊大資料的4V特徵中,哪個V才是大資料最貼切的特徵,這是整個文章的行文基礎。(2)大資料的力量與陷阱。在這一部分,我們聊聊大資料整體的力量之美及可能面臨的3個陷阱。(3)今日王謝堂前燕,暫未飛入百姓家,在這一部分,我們要說明,大資料雖然很火,但我們用資料發聲,用事實說話,大資料真的沒有那麼普及,小資料目前還是主流。(4)你若安好,便是晴天。在這一部分,我們說說的小資料之美,如果用“n=all”來代表大資料,那麼就可以用“n=me”來說明小資料(這裡n表示資料大小),我們將會看到,小資料更是關係到我們的切身利益。

  1.哪個V才是大資料最重要的特徵?  在談及大資料時,人們通常用4V來描述其特徵,即4個以V為首字母的英文:Volume(大量)、Variety(多樣)、Velocity(速快)及Value(價值)。如果 “閒來無事”,我們非要對這4個V在“兵器譜”上排排名,哪個才是大資料的貼切的特徵呢?下面我們簡要地說道說道,力圖說出點新意,分析的結果或許會出乎您的意料之外。

1.1 “大”有不同——Volume(大量)  首先我們來說說大資料的第一個V——Volume(大量)。雖然資料規模巨大且持續保持高速增長,通常作為大資料的第一個特徵。但事實上,早在20年前,在當時的IT環境下,天文、氣象、高能物理、基因工程等領域的科研資料量,已是這些領域無法承受的“體積”之痛,當時實時計算的難度不比現在小,因為那時的儲存計算能力差,亦沒有成熟的雲端計算架構和充分的計算資源。

況且,“大”本身就是一個相對的概念,資料的大與小,通常都打著很強的時代烙印。為了說明這個觀點,讓我們先回顧一下比爾?蓋茨的經典“錯誤”預測。

圖1 比爾▪蓋茨於1981年對記憶體大小的預測

  早在1981年,作為當時的IT精英,比爾?蓋茨曾預測說,“640KB的記憶體對每個人都應該足夠了(640KB ought to be enough for anybody)”。但30多年後的今天,很多人都會笑話蓋茨,這麼聰明的人,怎麼會預測地如此不靠譜,現在隨便一個智慧手機(或膝上型電腦)的記憶體的大小都是4GB、8GB的。

但是,需要注意的事實是,在1981年,當時的個人計算機(PC)是基於英特爾CPU 8088晶片的,這種CPU是基於8/16位(bit)混合構架的處理器,因此,640KB已經是這類CPU所能支援的定址空間的理論極限(64KB)的 10倍[2],換句話說,640K在當時是非常非常地龐大了!再回到現在,當前PC機的CPU基本都是64bit的,其理論支援的定址空間是2^64,而現在的4G記憶體,僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而!。

在這裡,講這個小故事的原因在於,衡量資料大小,不能脫離時代背景,不能脫離行業特徵。此外,大資料佈道者舍恩伯格教授在其著作《大資料時代》中指出[3],大資料在某種程度上,可理解為“全資料(即n=all)”。有時,一個所謂的“全”資料庫,並不需要有以TB/PB計的資料。在有些案例中,某個“全”資料庫大小,可能還不如一張普通的僅有幾個兆位元組(MB)數碼照片大,但相對於以前的“部分”資料,這個只有幾個兆位元組(MB)大小的“全”資料,就是大資料。故此,大資料之“大”,取義為相對意義,而非絕對意義。

這樣看來,網際網路巨頭的PB級資料,可算是大資料,幾個MB的全資料也可算是大資料,如此一來,大資料之“大”——“大”有不同,可大可小,如此不“靠譜”,反而不能算作大資料最貼切的特徵。

1.2 資料共徵——“Velocity(快速)”與“Value(價值)”  英特爾中國研究院院長吳甘沙先生曾指出,大資料的特徵“Velocity(快速)”,猶如“天下武功,唯快不破”一樣,要講究個“快”字。為什麼要“快”?因為時間就是金錢。如果說價值是分子,那麼時間就是分母,分母越小,單位價值就越大。面臨同樣大的資料“礦山”,“挖礦”效率是競爭優勢。

不過,青年學者周濤教授卻認為[4],1秒鐘算出來根本就不是大資料的特徵,因為“算得越快越好”,是人類自打有計算這件事情以來,就沒有變化過,而現在,卻把它作為一個新時代的主要特徵,完全是無稽之談。筆者也更傾向於這個說法,把一個計算上的“通識”要求,算作一個新生事物的特徵,確實欠妥。

類似不妥的還有大資料的另外一個特徵——Value(價值)。事實上,“資料即價值”的價值觀古來有之。例如,在《孫子兵法?始計篇》中,早就有這樣的論斷“多算勝,少算不勝,而況於無算乎?”此處 “算”,乃算籌也,也就是計數用的籌碼,它講得就是,如何利用數字,來估計各種因素,從而做出決策。

在馬陵之戰中,孫臏通過編造“齊軍入魏地為十萬灶,明日為五萬灶,又明日為三萬灶(史記·孫子吳起列傳)”的資料,利用龐涓的資料分析習慣,反其道而用之,對龐涓實施誘殺。

話說還有一個關於林彪將軍的段子(真假不可考),在遼瀋戰役中,林大將軍通過分析繳獲的短槍與長槍比例、繳獲和擊毀小車與大車比例,以及俘虜和擊斃的軍官與士兵的比例“異常”,因此得出結論,敵人的指揮所就在附近!果不其然,通過追擊從胡家窩棚逃走的那部分敵人,活捉國民黨主帥新六軍軍長廖耀湘。

在戰場上,資料的價值——就是輔助決策來獲勝。還有一點值得注意的是,在上面的案例中,戰場上的資料,神機妙算的軍師們,都能“掐指一算”——這顯然屬於十足的小資料!但網上卻流傳有很多諸如“林彪也玩大資料”、“跟著林彪學習大資料”等類似的文章,這就純屬扯淡了。如果凡是有點資料分析思維的案例,都歸屬於大資料的話,那大資料的案例,古往今來,可真是數不勝數了。

因此,Value(價值)實在不能算是大資料專享的特徵,“小資料”也是有價值的。在下文第4節的分析中,我們可以看到,小資料對個人而言,“價值”更是不容小覷。這樣一來,如果大、小資料都有價值,何以“價值”成為大資料的特徵呢?事實上,睿智的IBM,在對大資料的特徵概括中,壓根就沒有“Value”這個V(如圖2所示)。

圖2 IBM公司給出的大資料3V特徵

  我們知道,所謂“特徵”者,乃事物異於它物之特點”。打個比方,如果我們說“有鼻子有眼是男人的特徵”,您可能就會覺得不妥:“難道女人就沒有鼻子沒有眼睛嗎?”是的,“有鼻子有眼”是男人和女人的“共徵”,而非“特徵”。同樣的道理,Velocity 和Value這兩個V字頭詞彙,是大、小資料都能有的“共徵”, 實在也不算不上是大資料最貼切的特徵。

1.3五彩繽“紛”——Variety(多樣)  通常認為,大資料的多樣性(Variety),是指資料種類多樣。其最簡單的種類劃分,莫過於分為兩大類:結構化的資料和非結構化資料,現在“非結構化資料”佔到整個資料比例的70%~80%。早期的非結構化資料,在企業資料的語境裡,可以包括諸如電子郵件、文件、健康、醫療記錄等非結構化文字。隨著網際網路和物聯網(Internet of things,IoT)的快速發展,現在的非結構化資料又擴充套件到諸如網頁、社交媒體、音訊、視訊、圖片、感知資料等,這詮釋了資料的形式多樣性。

但倘若深究下去,就會發現,“非結構化”未必就是個成立的概念。在資訊中,“結構化”是永存的。而所謂的“非結構化”,不過是某些結構尚未被人清晰的描述出來而已。美國IT諮詢公司Alta Plana的高階資料分析師Seth Grimes曾在IT領域著名刊物《資訊週刊》(Information Week)撰文指出:不存在所謂的非結構化,現在所說的“非結構化”,應該是非模型化(unmodeled),結構本在,只是人們處理資料的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如圖3所示)。

圖3 Seth Grimes:非結構化乎,不!應是非建模

  大資料的多樣性(Variety),還體現在資料質量的參差不齊上。換句話說,這個語境下的多樣性就是混雜性(Messy),即資料裡混有雜質(或稱噪音)。大資料的混雜性,基本上是不可避免的,既可能是資料產生者在產生資料過程出現了問題,也可能是採集或儲存過程存在問題。如果這些資料噪音是偶然的,那麼在大資料中,它一定會被更多的正確資料淹沒掉,這樣就使得大資料具備一定的容錯性;如果噪音存在規律性,那麼在具備足夠多的資料後,就有機會發現這個規律,從而可有規律的“清洗資料”,把噪音過濾掉。吳甘沙先生認為[15],多元抑制的資料,能夠過濾噪聲、去偽存真,即為辯訛。更多有關混雜性的精彩描述,讀者還可批判性地參閱舍恩伯格教授的大著《大資料時代》[3]。

事實上,大資料的多樣性(Variety),最重要的一面,還是表現在資料的來源多和用途多上。每一種資料來源,都有其一定的片面性和侷限性,只有融合、整合多方面的資料,才能反映事物的全貌。事物的本質和規律隱藏在各種原始資料的相互關聯之中。對同一個問題,不同的資料能提供互補資訊,可對問題有更為深入的理解。因此在大資料分析中,彙集儘量多種來源的資料是關鍵。中國工程院李國傑院士認為[6],這非常類似於錢學森老先生提出的“大成智慧學”,“必集大成,才能得智慧”。

著名歷史學家許倬雲先生,站在歷史的高度,也給出了自己的觀點,他說“大資料”之所以能稱之為“大資料”,就在於,其將各種分散的資料,彼此聯絡,由點而線,由線而面,由面而層次,以瞻見更完整的覆蓋面,也更清楚地理解事物的本質和未來取向。

英國數學家及人類學家托馬斯·克倫普(Thomas Crump)在其著作《數字人類學》The(Anthropology of Numbers)指出[7],資料的本質是人,分析資料就是在分析人類族群自身,資料背後一定要還原為人。東南大學知名哲學教授呂乃基先生認為[8],雖然每個資料來源因其單項而顯得模糊,然而由“無限的模糊”所帶來的聚焦成像,會比“有限的精確”更準確。“人是社會關係的總和(馬克思語)”。 大資料利用自己的“多樣性”,比以往任何時候都趨於揭示這樣的“總和”。

因此,李國傑院士認為[6],資料的開放共享,提供了多種來源的資料融合機會,它不是錦上添花的事,而是決定大資料成敗的必要前提。

從上分析可見,雖然大資料有很多特徵(甚至有人整出個11個V來),但大資料的多樣性(Variety),無疑它是區分以往小資料的最重要特徵。

 2. 大資料的力量與陷阱  大資料的多樣性,給大資料分析帶來了龐大的力量,但這個多樣性也帶來了大資料的陷阱,下面我們就聊聊這個話題。

2.1 大資料的力量  很多小概率、大影響的事件(即黑天鵝事件),在單一的小資料環境下,很可能難以發現。但是由“八方來客”彙集而來的大資料,卻能有機會提供更為深刻的洞察(insight)。例如,癌症屬於一類長尾病症,經過多少年努力,癌症治癒率僅提升了不到8%。其中一個重要原因是,單個癌症的診療機構的癌症基因組樣本都相對有限。“小樣本”得出的研究結論,得出有關“癌症診斷”的結論,極有可能是“盲人摸象化”的[9]。

於是,英特爾公司提出的“資料咖啡館”概念,吳甘沙先生做了一個形象的類比,他說咖啡館的好處在於“Let ideas have sex”,而大資料產生價值、爆發力量的關鍵是“Let data have sex”。取意如此,資料咖啡館”的核心理念在於,把不同醫療機構的癌症診療資料匯聚到一起,形成大資料集合,但不同機構間的資料,“相逢但不相識”。讓多源頭的“小資料”彙集起來,可實現資料之間“1 1>2”的價值。對多資料融合用“have sex”這個比喻,是非常有意思的,因為倘若你真想要達到“1 1> 2”的效果,就不能帶著“套子”擋著,就要打破“資料流的割據”。難怪李院士一直強調,資料的流通性,是決定大資料成敗的前提,還是真的(純屬調侃,不可較真)!

類似的,2014年美國總統辦公室釋出了題為“大資料:抓住機遇,留住價值(Big Data:Seizing Opportunities, Preserving Values)”的報告[10],文中列舉了一個案例:

Broad 研究院(這是一個由麻省理工學院和哈佛大學聯合創辦的世界著名的基因研究機構)的研究人員發現,海量的基因資料,在識別遺傳變異對疾病的意義中,有著及其重要的作用。在這個研究中,當樣本數量是 3,500 時,與精神分裂症有關的遺傳變異,根本無法檢測出來;當使用 10,000 個樣本時,也只能有細微的識別;但是當樣本達到 35,000 時,統計學上的統計顯著性(statistically significant)便突然顯示出來。正如一個研究人員所觀察到的那樣,“存在一個拐點,一旦跨越,一切皆變!(There is an
inflection point at which everything changes)”[11](如圖4所示)。從這個案例中,大資料把哲學中的“量變引發質變”演繹得淋漓盡致。

圖4 精神分裂症有關的遺傳變異發現——大資料的“彙集”的力量

  2.2 大資料的陷阱

大資料的多樣性,帶人們來了“兼聽則明”的智慧。然而,正如英諺所云::“一個硬幣有兩面(Every coin has two sides)”, 這個多樣性也會帶來一些不宜察覺的“陷阱”。用“成也蕭何,敗也蕭何”來描述大資料的兩難,再恰當不過了。

2.2.1 DIKW金字塔體系  1989年,管理學家羅素·艾可夫(Russell .L. Ackoff)撰寫了《從資料到智慧》(From Data to Wisdom),系統地構建了DIKW體系[12],即從低到高依次為資料(Data)、資訊(Information)、知識(Knowledge)及智慧(Wisdom)。美國學者澤萊尼(Zeleny)提出了4個Know(知道)比喻[12],比較形象地區分了DIKW體系中的元素,如圖5所示。

圖5 澤萊尼對DIKW體系的4個Know比擬

  澤萊尼對DIKW體系的註解,讓人感觸最深的可能在於,資料如果不實施進一步地處理,即使收集資料的容量再“大”,也毫無價值,因為僅僅就資料本身,它們是“一無所知(Know-Nothing)”的。資料最大的價值,在於形成資訊,變成知識,乃至昇華為智慧。

舍恩伯格教授在其大作《大資料時代》有個核心觀點是:“要相關,不要因果”,即知道“是什麼”就夠了,沒必要知道“為什麼”。但從DIKW體系可知,如果放棄“為什麼”的追尋,事實上,就放棄了對金字塔的最頂端——智慧(Wisdom)的追求——而智慧正是人類和機器最本質的區別。

對此,青年學者周濤教授總結得非常精彩:“放棄對因果性的追求,就是放棄了人類凌駕於計算機之上的智力優勢,是人類自身的放縱和墮落。如果未來某一天機器和計算完全接管了這個世界,那麼這種放棄就是末日之始”。對大資料的因果性和相關性的探討,我們已經在《來自大資料的反思:需要你讀懂的10個小故事》一文中[14],已有涉及,在此不再贅言,下面我們想探討的是,事實上,對因果關係的追尋,是人類慣有的思維,在這個慣性思維推動下,很容易誤把“相關”當“因果”——這是我們需要警惕的大資料陷阱。

2.2.2 誤把“相關”當“因果”  所謂“相關性”是指兩個或兩個以上變數的取值之間存在某種規律性。兩個變數A和B有相關性,只反映A和B在取值時相互有影響,但並不能說明因為,有A就一定有B,或者反過來因為有B就一定有A。

在上面的論述中,似乎一直在說“相關性”的不足。但事實上,相關性在很多場合是極其有用的。例如,在大批量的小決策上,相關性就是有用的,亞馬遜的電子商務個性化推薦,就是利用相關性,給無數顧客推薦相關的或類似商品,這樣顧客找起商品方便了,亞馬遜也落得個賺得缽滿盆滿。

然而,對於小批量的大決策,對因果性的追求,依然非常重要。吳甘沙先生用“中西藥”藥方做類比,給出了一個很精彩的例子,來說明相關性和因果性的關係[15]。對於中藥處方而言,多是“神農嘗百草”式的經驗處方,目前僅僅到達知道相關性這一步,但它沒有可解釋性,無法得出是那些樹皮和蟲殼的因,為什麼就是導致某些病能治癒的果,換句話說,中藥僅僅到了“知其然”階段(追求“是什麼”),如果我們的國粹止步於“知其所以然”(追求“為什麼”),那麼中醫想要走出中國,面向世界,是非常困難的(注:筆者曾是中醫的受益者,請不要誤判是在黑中醫)。

而西藥則不同,在發現相關性後,並沒有止步,而是進一步要做隨機對照試驗,把所有可能導致“治癒的果”的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是類似,相關性只是決策的開始,它取代了拍腦袋、依靠直覺獲得的假設,而後面驗證因果性的過程仍然是重要。

在大資料時代,“相關性”被很多大資料粉絲奉為圭臬。前文也提到,“相關性”也的確有用,但有時,“金剛經”會被唱成“經剛金”,差之毫釐,謬以千里!很多時候,人們會不自覺地把“相關性”不自覺地當作“因果性”。

加拿大萊橋大學管理學院鮑勇劍教授指出[16],在大資料時代,只要有超大樣本和超多變數,我們都可能找到無厘頭式的相關性。美國政府每年公佈4.5萬類經濟資料。如果你要找失業率和利率受什麼變數影響,你可以羅列10億個假設。只要你反覆嘗試不同的模型,上千次後,你一定可以找到統計學意義上成立的相關性。下面我們講幾個小故事(段子)來說明這個觀點。

在小資料時代的1992年,香港人拍了一個電視連續劇《大時代》,其中著名演員鄭少秋飾演丁蟹,丁蟹是一個資深的股民,股海翻騰,身心疲憊,終無所得。在1992年的隨後20多年裡,只要電視臺一播放鄭少秋主演的連續劇,香港恆生指數都會有不同程度的下跌,人稱“丁蟹效應(或稱秋官效應)”,這是有樣本支援的,如圖6所示。每次鄭少秋主演的電視劇播放預告時,總有香港股民打電話到電視臺,希望不要播放,因為擔心虧錢。

圖6 丁蟹效應與香港股市

  更無厘頭的是,這相關性還扯到中國運動員劉翔身上了,下面是個“餘溫尚存”段子,它是這樣描述的:

2008年8月18日 北京奧運會,劉翔因傷退賽,當天股市大跌5.3%,並且一個月內大跌20%。

2014年9月他宣佈結婚一個月後,股市就開始狂漲,從2300點漲到5178點。

2015年6月26日,劉翔離婚,股市繼續大跌至8%。股市的漲跌原來都是因為劉翔啊!

因此,網友們強烈要求劉翔儘快宣佈再次結婚。

香港的股民為什麼不希望鄭少秋主演的電視劇播放,是因為怕電視劇一播放,股市就下跌。大陸的股民為什麼希望劉翔再次結婚,因為劉翔有喜了,所以股市就有喜了。注意到前面描述中體現出來的“因果關係”嗎?

事實上,《大時代》和劉翔和股市之間有何因果關係?不過是樣本大了,變數多了,統計上的“相關性”就會冒出來而已。而人們卻“潛移默化”地把觀察到的“相關”,當作事物背後的“因果”。

有人可能不認可上述觀點,認為上面兩個小故事,都是屬於段子級別的案例,何以能說明問題?那我們就舉一個古而有之的案例來說明這個觀點。請讀者略看下面的文字:

黃梅時節家家雨,青草池塘處處蛙。

潮起潮落勁風舞,夏夜夏雨聽蛙鳴。

荷沐夏雨嬌滴滴,稻裡蛙鳴一片歡。

夏雨涼風,蟬噪蛙鳴,熱浪來襲,遠處雲樹晚蒼蒼。

皇阿瑪,你還記得當年蛙鳴湖邊的夏雨荷嗎?

我們知道,文學雖然高於生活,但亦源於生活。從上面從古至今的“文人墨客”的詩情畫意中,讀者依稀可看出一點點相關性 ——人類祖先經過長期觀察發現,蛙鳴與下雨往往是同時發生。這樣的長期觀察樣本,也可稱得上是“大資料”。於是,不求甚解的古人,在大旱季節,就會把這個 “相關性”當作“因果性”了,試圖通過學蛙鳴來求雨。在多次失靈之後,走向巫術、獻祭和宗教[8](如圖7所示)。與小資料一樣,在大資料中,可解釋性(因果關係)始終是重要的。

圖7 印度人民以蛙求雨的習俗,源遠流長,至今留存

  博弈論創始人之一、天才電腦科學家諾伊曼(John von Neumann)曾戲言稱:“如果有四個變數,我能畫頭大象,如果再給一個,我讓大象的鼻子豎起來!”大資料的來源多樣性,變數複雜性,為誕生 “新穎”的相關性,創造無限可能。而本質上,人們對因果關係的追求,事實上,已經根深蒂固,這種思維慣性難以輕易改變,而在大資料時代,會面臨著冒出更多的相關性,“亂花漸欲迷人眼”。大資料的擁躉者們說,“要相關,不要因果”,但事實上,在很多時候,特別是人們在對未來無法把控的時候,很容易把 “相關”當作“因果”!這是大資料時代裡一個很大的陷阱,特別值得注意。

2.2.3 大資料的其它陷阱  下面,我們用另外一個小“故事”來說明大資料的第二個陷阱:

假如你是一位出車千次無事故的好司機,年關將近,酒趣盎然,在朋友家喝了點小酒,這時估計警察也該下班過年了,於是你堅持自己開車回家,盤算著這酒後駕車出事故的概率也不過千分之一吧。如果這樣算,你就犯了一個取樣錯誤,因為前一千次出車,你沒喝酒,它們不能和這次“酒後駕車”混在一起計算)。

這是大資料分析中的第二個容易跳入的陷阱。大資料的多樣性裡,包括了資料質量上的“混雜性”,某些低頻但很重要的弱訊號,很容易被當作噪音過濾掉了!從而痛失發現“黑天鵝”事件的可能性。

再例如,在美國,學習飛機駕駛是件“司空見慣”的事,在幾十萬學習飛機駕駛的記錄中,如果美國有關當局能注意到,有那麼幾位學員只學習“飛機起飛”,而不學習“飛機降落”,那麼9/11事件或許就可以避免,世界的格局可能就此發生根本性的變化(當然,這個事件也為中國贏得了10年的黃金髮展期,不在本文的討論範圍,就不展開說)。在大資料時代的分析中,很容易放棄對精確的追求,而允許對混雜資料的接納,但過多的“混雜放縱”,就會形成一個自設的陷阱。因此,必需“未雨綢繆”,有所提防。

在大資料時代裡,第三個值得注意的陷阱是,大資料的擁躉者認為,大資料可以做到“n=all”(這裡n資料的大小),因此無需取樣,這樣做也就不會再有采樣偏差的問題,因為取樣已經包含了所有資料。但事實上,“n=all”很難做到,統計學家們花了200多年,總結出認知資料過程中的種種陷阱(如統計偏差等),這些陷阱不會隨著資料量的增大而自動填平。這在《來自大資料的反思:需要你讀懂的10個小故事》一文中,已有討論,不再贅言。

 3.今日王謝堂前燕,暫未飛入百姓家——大資料沒那麼普及!  目前,雖然大資料被炒得火熱,甚至連股票交易大廳的大爺大媽都可以聊上幾句“大資料”概念股,但是大資料真的有那麼普及嗎?

事實上,倘若想要充分利用大資料,至少要具備3個條件:(1)擁有大資料本身;(2)具備大資料思維;(3)配備大資料技術。這三個高門檻,事實上,已經把很多公司企業拒之門外,套用劉禹錫那句詩:今日王謝堂前燕,不入尋常百姓家——大資料依然還是那麼高大上,遠遠沒有那麼普及!

圖8所示的是,著名IT諮詢公司高德納(Gartner)於2014年公佈的技術成熟度曲線(hype cycle)。國內將“hype cycle”翻譯成“成熟度曲線”,實在是太過文雅了,直譯為“炒作週期”也毫不為過。從圖8可以看出,大資料已經過了炒作的高峰期,目前處於泡沫化的底谷期 (Trough of Disillusionment)。

在歷經前面的科技誕生促動期 (Technology Trigger)和過高期望峰值期(Peak of Inflated Expectations)這兩個階段,泡沫化的底谷期存活下來的科技(如大資料),需要經過多方歷練,技術的助推者,要麼咬牙堅持創新,要麼無奈淘汰出局,能成功存活下來的技術及經營模式,將會更加務實地茁壯成長。

李國傑院士在接受《湖北日報》的採訪時,也表達了類似的觀點,“大資料剛剛過了炒作的高峰期”[17]。冷靜下來的大資料,或許可以走得更遠。

圖8 高德納技術成熟度曲線

  李國傑院士還表示,大資料與其他資訊科技一樣,在一段時間內遵循指數發展規律。指數規律發展的特點是,在一段時期衡量內(至少30年),前期發展慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持“指數性”增長,最後的結局,要麼進入良性發展的穩定狀態,要麼走向消亡。

大資料的佈道者們,張口閉口言稱大資料進入PB時代了。例如,《連線》雜誌的前主編克里斯·安德森早在2008年說:“在PB時代,數量龐大的資料會使人們不再需要理論,甚至不再需要科學的方法。”但是這個吹捧也是非常不靠譜的,亦需要潑冷水還有大資料。

在大資料時代,我們要習慣讓資料發聲。下面的統計資料來自大名鼎鼎的學術期刊《科學》(Science)。2011年,《科學》調查發現[18],在“在你的科研中,你使用的(或產生)最大資料集是多大?”的問卷調查中(如圖9所示),48.3%的受訪者認為他們日常處理的資料小於1GB,只有7.6%的受訪者說他們日常用的資料大於 1TB(1TB=1024GB,1PB=1024TB),也就是說,調查資料顯示,92.4%使用者所用的資料小於1TB,一個稍微大點的普通硬碟就能裝載得下,這讓那些動輒言稱PB級別的大資料的佈道者們情何以堪啊?而大資料重度鼓吹手IDC,目前正在為業界巨擘搖旗吶喊ZB時代(1ZB=1024PB),我們一定要冷眼看世界,慢慢等著瞧吧!


圖9 在你的科研中,你使用的(或產生)最大資料集是多大?

  而在“在哪裡儲存你實驗室產生的資料或科研用的資料?”問卷調查中,50.2%的受訪者回答是在自己的實驗室電腦裡儲存,38.5%受訪者回答是在大學的伺服器上儲存。由此可見,大部分的資料依然處於資料孤島狀態,在資料流通性的道路是,依然“路漫漫其修遠兮”。而資料的流通性和共享性,如前文所述,是大資料成敗的前提。


圖10 你主要在哪裡儲存你實驗產生的或科研資料?

  或許也有讀者不以為然,說我就是屬於那不分小於7.6%的人(即使用或產生的資料大於1TB)。“我小眾,我自豪”,此類信心滿滿的人,大多來自主流的網際網路公司,如Google、Yahoo、微軟、Facebook等,而在國內的自然非BAT莫屬了。事實上,即使來自這類大公司的日常業務,其資料集也不是那麼大的“觸目驚心”。

微軟研究院資深研究員Antony Rowstron等人撰文指出[19],根據微軟和Yahoo的統計,所有Hadoop的作業放一起,取箇中間值,其輸入資料集的大小也不過是14GB。即使是在大資料大戶Facebook,其90%的作業輸入資料集,也是小於100GB的(clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB)。那些動輒拿某個網際網路巨頭的資料體積總和,來“忽悠”大家的大資料佈道者們,更應該借給你的受眾們“一雙慧眼”,讓他們“把這紛擾看得清清楚楚明明白白真真切切”。

當然,Antony Rowstron的這篇論文“意不在此”,文中的主要訴求是,既然我們日常處理的資料沒有那麼大到“不成體統”,就沒有必要把某臺機器的效能指標一味地縱向擴充套件(scale up),比如把記憶體從8G升級為16GB,32GB,64GB,甚至更高,而是應該選擇更加“經濟實惠”的橫向擴充套件(Scale-out)策略,比如將若干個8GB低配置的機器連線在一起,組成一個廉價的叢集(cluster),然後利用Hadoop將叢集用起來,所以這篇論文的標題是“沒有人會因在叢集上使用Hadoop而被解僱(Nobody ever got fired for using Hadoop on a cluster)”,言外之意,在目前大資料語境下,使用“類Hadoop(Hadoop-like)”工具分析大資料是主流的趨勢之一,就業市場一片光明。

從上面的分析可以看出,我們不否認,大資料是前沿,但我們更不能對目前的現狀熟視無睹——小資料依然是主流。目前大多數公司、企業其實仍處於“小資料”處理階段。但只要在縱向上有一定的時間積累,在橫向上有較豐富的記錄細節,通過多個源頭對同一個物件採集的各種資料有機整合,實施合理的資料分析,就可能產生大價值。基於此,李國傑院士指出,在大資料時代,我們是不能拋棄“小資料”的[9]。

對精確的追求,歷來是傳統的小資料分析的強項,這在一定程度上彌補大資料的“混雜性”缺陷。猶如有句歌詞唱得那樣:“結識新朋友,不忘老朋友”。在大資料時代,我們也不能忘記小資料。大資料有大資料的力量,小資料有小資料的美。下面我們就聊聊這個話題。

 4.你若安好,便是晴天——小資料之美  小資料,其實是大資料的一個有趣側面,是其眾多維度的一維。有時,我們需要大資料的全維度可視,周濤教授甚至把“全息可見”作為大資料的特徵,而這個特徵在對使用者數字“畫像”時,非常有用,因為這樣做,非常有利於商家推廣“精準營銷”。

在這裡,我們再次強調托馬斯·克倫普的哲學觀——資料的本質是人。技術也是為人服務的。對於 “普羅大眾”而言,有時,我們並不希望自己被數字化,被全息透明化,這就涉及到個人隱私問題了。如果大資料技術侵犯個人的隱私,讓受眾不開心了,那這個技術就應該有所限制和規範,但這不在本文的討論範圍,就不展開說了。

流行的“大資料”定義是:“無法通過目前主流軟體工具在合理時間內採集、儲存、處理的資料集”。我們很容易反其道而用之,定義出“小資料(small data)”, “通過目前主流軟體工具可以在合理時間內採集、儲存、處理的資料集”。這就是傳統意義上的小資料,經典的數理統計和資料探勘知識,可以較好地解決這類問題。這個範疇的小資料,屬於老生常談,所以本文不談。

我們下文討論的小資料,是一類新興的資料,它是圍繞個人為中心全方位的資料,是我們每個個體的數字化資訊,因此,也有人稱之為“iData”。這類小資料跟大資料的根本區別在於,小資料主要以單個人為研究物件,重點在於深度,對個人資料深入的精確的挖掘,對比而言,大資料則側重在某個領域方面,在大範圍、大規模全面資料收集處理分析,側重在於廣度。

小資料是大資料的某個側面,事實上,很多時候,對於個人而言,這個所謂的側面就有可能是特定個人的全面。當大資料受萬人矚目時,創新技術(如智慧手機、智慧手環及智慧體育等)也讓小資料——個人的自我量化(Quantified Self,QS), “面朝大海,春暖花開”。

個人量化,可以測量、跟蹤、分析我們日常生活中點點滴滴。比如,今天的早餐我攝入了多少卡路里?圍著操場跑一圈我消耗了多少熱量,在手機的某個App(如微信)上我耗費了多少時間?等等諸如此類。在某種程度上,是小資料,而非大資料,才是我們生活的幫手。“小資料”不比大資料那樣浩瀚繁雜,卻對我自己至關重要。下面我們用兩個小案例來說明小資料的應用。

先說一個稍微高大上的案例。據科技記者Emily Waltz在IEEE Spectrum的撰文指出[20],目前佩戴在運動員身上生物小配件(Biometric gadget,通常指感測器),正在改變世界精英級運動員的訓練方式。這些可穿戴感測器裝置,提供實時的生理引數,而在以前,倘若要獲取這樣的資料,需要笨重和昂貴的實驗室裝置。如同40年前,風靡一時的負重訓練方案,可讓運動員更有韌性,可穿戴裝備能幫助運動員提高成績並同時避免受傷。一些棒球手、自行車運動員和橄欖球等競技運動員用新裝備尋求優勢。

圖11 運動員利用可穿戴裝置訓練美式橄欖球

  例如,在如圖11所示的裝備中,運動員身上的感測器能夠精確記錄在室內外場館的運動特徵。這些自我量化裝置,可放置於運動員背部的壓縮衣中,它能夠監控運動員的加速、減速、方向改變以及跳躍高度和運動距離等指標。教練員能夠通過監控資料,來檢測每個運動員訓練強度,並防止過度訓練所帶來的傷害。這些自我量化裝置的工作原理是,協同使用很多小裝置,如加速計、磁力計、陀螺儀、GPS接收儀等——這些裝置每秒能夠產生100個資料點。通過無線連線,計算機可以實時採集這些資料。個人量化分析軟體,可對運動特徵和特定位置實施分析,計算機專家系統中的演算法,可以檢測到運動員在做對了什麼、做錯了什麼,基於此,教練可以給出更加有針對性的訓練。目前此類裝置的使用者,包括一半以上的NFL(橄欖球聯盟)、三分之一的NBA運動員、一半以上的英超球隊以及世界各地的足球隊、橄欖球隊和划船運動隊等。

自我量化裝置(可穿戴裝置)通常是和物聯網(Internet of things,IoT)是有關聯的。而現在還處於炒作巔峰的物聯網(如圖8所示),通常是和大資料扯到一起的,但是就某個具體的物聯網裝置而言,它一定先是產生少量的甚至是微量的資料,也就是說,物聯網首先是小資料,然後才能彙整合大資料。沃頓商學院教授、紐約時報最佳暢銷書作者喬納·伯傑(Jonah Berger)推測[21],個人的自我量化資料,或許將會是大資料革命中下一個演進方向。由此可見,大、小資料之間並無明顯的界限。再大的資料也是人們一點一滴聚沙成塔、集腋成裘的。沒有小資料的積少成多、百川歸海,大資料也是無源之水、無本之木。

但如同中國那句老話說的,“一屋不掃,何以掃天下”,如果小資料都不能很好地處理,如何來很好地處理“彙集”而來的大資料?

說完高大上的案例,下面我們再聊聊一個“平淡無奇”生活小案例[22]:

故事的主人是美國康奈爾大學教授德波哈爾·艾斯汀(Deborah Estrin)。Estrin的父親於2012年去世了,而早在父親去世之前的幾個月裡,這位電腦科學教授就注意到一些“蛛絲馬跡”,相比從前,父親在數字社會脈動(social pulse)中,已有些許變化——他不再查閱電子郵件,到附近散步的距離也越來越短,也不去超市買菜了。

然而,這種逐漸衰弱的跡象,在他去醫院進行的常規心臟病(cardiologist)體檢中,不一定能看出來。不管是測脈搏,還是查病歷,這位90歲的老人都沒有表現出特別明顯的異常。可事實上,倘若追蹤他每時每刻的個體化資料,這些資料雖小,但也足夠刻畫好出,老人的生活其實已然明顯與之前不同。

這種日常自我量化的小資料,帶來了生命訊息的警示和洞察,啟發了這位電腦科學教授,Estrin建立了在康奈爾大學建立了“小資料實驗(the small data lab @CornellTech,訪問連結:http://smalldata.io/)”。在Estrin看來,小資料可以看作是一種新的醫學證據,它僅僅是 “他們資料中屬於你的那一行(your row of their data)”[23] 。

舍恩伯格教授在其著作《大資料時代》中,將大資料定義為全資料(即n=All,n為資料的大小),其旨在收集和分析與某事物相關的“全部”資料。類似的, Estrin將小資料定義為:“small data where n=me”,它表示,小資料就是全部有關於我(me)的資料[24]。

這樣一來,可以看出,小資料更加“以人為本”,它可以為我們提供更多研究的可能性:能不能通過分析年老父母的整合資料,進而獲得他們的健康資訊?能不能通過這些整合資料,比較不同的醫學治療方案?如果這些能實現,“你若安好,便是晴天”,便不再是一句空洞的“文藝腔”,而是一席“溫情脈脈”的期望。

人,是一切資料存在的根本。人的需求是所有科技變革發展的動力。可以預見,不遠的將來,資料革命下一步將進入以人為本的小資料的大時代。當然,這並非說大資料就不重要。一般來說,從大資料得到規律,用小資料去匹配個人。吳甘沙先生用《一代宗師》的臺詞來比擬大、小資料的區分,倒也甚是恰當。他說,小資料“見微”,作個人刻畫,可用《一代宗師》中“見自己”形容之;而大資料“知著”,反映自然和群體的特徵和趨勢,可用《一代宗師》中的 “見天地、見眾生”比喻之。

著名科技史學家馬爾文·克蘭茲伯格(Melvin Kranzberg)提出的“克蘭茲伯格第一定律”指出,“技術既無好壞,亦非中立”,即技術確實是一種力量,但“與社會生態技術的相互作用,使得技術發展經常有問題,遠遠超出了技術裝置的直接目的和實踐自己的環境,人類釋放出來的技術力量與人類本身互動的複雜矩陣,都是有待探索的問題,而非必然命運”。

前面我們說道大資料可能存在資料安全及隱私問題,事實上,小資料同樣存在類似的問題,甚至更為嚴峻。我們應清楚,諸如大資料、小資料的科技,既可以為公眾謀福利,也可能對人造成傷害。關鍵就是,如何在機遇與挑戰間尋找到最佳的平衡。

  5.小結

  在資料的江湖裡,既有波瀾壯闊的大資料,也有細流漣漪的小資料,二者相輔相成,才能相映生輝。美國電子電氣工程師協會會士(Fellow)、中國科學院計算技術研究所研究員閔應驊表示[25]:目前大資料流行,人們就“言必稱大資料”,這不是做學問的態度,不要碰到大量的資料,就給它戴上一頂帽子“大資料”。目前,各行各業碰到的資料處理多數還是“小資料”問題。不管是大資料還是小資料,我們應該敞開思想,研究實際問題,切忌空談,精準定位碰到的資料業務問題,以應用為導向,而非以技術為導向,不要哪個技術熱,追逐哪個。

《Fierce Big Data》編輯Pam Baker表明[26],當你在尋思如何抉擇大資料,還是小資料時,先擱置這事兒。思量一下,你的公司是否擅長利用資料創造價值,如果你的公司還沒有達到這個境界,那先把這事解決了再說。

前中信銀行行長、中信集團監事長朱小黃也曾說[27]:“資料本無大小,但運用資料的立場卻分大小,是謂大資料”。深以為然。

在京劇《沙家浜》有句經典唱詞:“擺開八仙桌,招待十六方”。如果大資料、小資料是這“八仙桌”上的菜,來自“十六方”的您,在下口之前,一定要先確定,哪道才是你的菜,不然花了冤枉錢,還沒有吃好,那可就“整個人都不好了”。

參考文獻  [1]Kranzberg, Melvin . Technology and History: “Kranzberg’s Laws”, Technology and Culture, Vol. 27, No. 3, pp. 544–560. 1986

[2] Eric Lai.The ‘640K’ quote won’t go away — but did Gates really say it?

[3]維克托·邁爾·舍恩伯格, 肯尼思·庫克耶. 盛楊燕,周濤譯.大資料時代[M].浙江人民出版社.杭州,2013

[4] 周濤.什麼是大資料?科學網部落格. http://blog.sciencenet.cn/blog-3075-603325.html

[5] Seth Grimes. InformationWeek. Structure, Models and Meaning : is “unstructured” data merely unmodeled?

[6] 李國傑. 對大資料的再認識[J]. 大資料, 2015, 1(1): 2015001.

[7] Thomas Crump. The Anthropology of Numbers (Cambridge Studies in Social and Cultural Anthropology) .Cambridge University Press, 1992

[8]呂乃基. 大資料與認識論[J]. 中國軟科學, 2014, (9):34-45. DOI:10.3969/j.issn.1002-9753.2014.09.004.

[9] Bernard Marr.大資料專家Bernard Marr:大資料是如何對抗癌症的?CSDN. http://www.csdn.net/article/2015-07-14/2825204/1

[10] Executive Office of the President . Big Data:Seizing Opportunities, Preserving Values, May 2014

[11] Manolis Kellis,“Importance of Access to Large Populations,” Big Data Privacy Workshop: Advancing the State of the Art in Technology and Practice, Cambridge, MA, March 3, 2014.

[12] Ackoff, Russell (1989). “From Data to Wisdom”. Journal of Applied Systems Analysis 16: 3–9.

[13] Zeleny, M. “From knowledge to wisdom: On being informed and knowledgeable, becoming wise and ethical.” International Journal of information technology & decision making 5.04 (2006): 751-762.

[14] 張玉巨集.來自大資料的反思:需要你讀懂的10個小故事, CSDN. http://www.csdn.net/article/2015-07-28/2825312/1

[15] 吳甘沙.漫談大資料的思想形成與價值維度,2014

[16] 鮑勇劍.第一財經日報.大資料的陷阱 為什麼小資料更重要?

[17] 湖北日報.李國傑:大資料剛剛過了炒作的高峰期. 2015-3-30

[18] Challenges and Opportunities. Science. 11 February 2011: Vol. 331 no. 6018 pp. 692-93 DOI: 10.1126/science.331.6018.692.

[19]Rowstron A, Narayanan D, Donnelly A, et al. Nobody ever got fired for using Hadoop on a cluster[C]//Proceedings of the 1st International Workshop on Hot Topics in Cloud Data Processing. ACM, 2012: 2.

[20] Emily Waltz. The Quantified Olympian: Wearables for Elite Athletes. http://spectrum.ieee.org/biomedical/devices/the-quantified-olympian-wearables-for-elite-athletes. 28 May 2015.

[21] Jonah Berger. Is Little Data The Next Big Data? https://www.linkedin.com/pulse/20130908184001-5670386-is-little-data-the-next-big-data

[22] Jonah Comstock . Why small data, data donation should be healthcare’s future. http://mobihealthnews.com/21681/why-small-data-data-donation-should-be-healthcares-future/ . Apr 17, 2013

[23]Valerie Barr.The Frontier of Small Data. Communications of the ACM .http://cacm.acm.org/blogs/blog-cacm/168268-the-frontier-of-small-data/fulltext. September 29, 2013

[24] Estrin D. Small data, where n= me[J]. Communications of the ACM, 2014, 57(4): 32-34.

[25] Pam Baker.Small data vs big data: the battle that never was. Fierce BigData.http://www.fiercebigdata.com/story/small-data-vs-big-data-battle-never-was/2014-06-02

[26] 閔應驊.大資料時代聊聊小資料.《北京青年報》. 2014年04月16日http://zqb.cyol.com/html/2014-04/16/nw.D110000zgqnb_20140416_3-11.htm

[27] 塗子沛. 資料之巔: 大資料革命, 歷史, 現實與未來[M]. 中信出版社, 2014.

作者介紹:張玉巨集,博士。2012年畢業於電子科技大學,現執教於河南工業大學。中國計算機協會(CCF)會員,ACM/IEEE會員。主要研究方向為高效能運算、生物資訊學,主編有《Java從入門到精通》一書。