編者注:此文是 Christopher Mims 的文章。
大資料可謂最近最火的東西之一了,所以,你最好要有點大資料,否則會在競爭對手面前丟面子—哪怕有資料但是不夠大也不行。
由希望兜售下一個大事物的諮詢顧問、IT 公司描述的這些“大資料”故事,其背後的假設存在很多問題。幸運的是,誠實的大資料實踐者,那些天生就具有高度質疑精神的資料科學家,連篇累牘地向我們講述了對該領域的許多炒作感到厭倦的原因。以下就是部分理由:
哪怕是像Facebook和Yahoo這樣的巨頭通常也不和大資料打交道,Google風格工具的應用是不合時宜的。
Facebook 和 Yahoo 用自己龐大的內部“叢集”(一組計算能力很強的伺服器)來處理資料。這些叢集的必要性是大資料的標記之一。畢竟嘛,如果用你家裡的 PC 就能處理的資料當然不能算“大”。將問題打破成許多小部分,然後對一個部分用一大組計算機進行處理,這種分而治之的必要性,描繪了像 Google 需要對全球的每一個網頁進行排名這類典型的大資料問題的特徵。
但是事實上,哪怕是 Faceboo 和 Yahoo,那些叢集對於它們手上的許多工來說也是沒有必要的。以 Facebook 為例,他們的工程師交給叢集處理的大多數任務也只是 MB—GB 級的,這意味著用一臺計算機—甚至是筆記本就能處理了。
Yahoo 的故事類似,交給 Yahoo 的叢集處理的任務規模平均是 12.5GB。這個規模要大於普通桌面 PC 的處理能力,但是對於一臺強大的伺服器來說沒有問題。
所有這一切都可用微軟研究院的一篇論文概括,這篇論文的題目叫做《買叢集不會有錯》。論文指出,哪怕是在對資料最為飢渴的公司,許多工程師解決的問題都不需要在叢集上跑。為什麼這是個問題呢?因為存在著非常多型別的問題用叢集處理起來時相對低效的,甚至完全就是不合時宜的。
大資料已變成“資料分析”的同義詞,令人困惑,還會產生反效果
資料分析是個老古董了,可是現在談起資料,你不在它前面加個“大”字都覺得不好意思—非常有必要的資料分析實踐已經被一股更猛烈但沒那麼有用的炒作之風一掃而光。比方說,這裡就有一篇文章循循誘導自己的讀者要將大資料吸收進自己的小企業當中,但是裡面討論的那些東西還不如在筆記本上的 EXCEL 好用。
也就是說,實際上大多數企業要處理的是 Open Knowledge Foundation 的 Rufus Pollock 所謂的小資料。根據 Pollock 的定義,所謂的小資料是指可以方便地在一臺機器(高階筆記本或伺服器)上儲存和處理的資料。Pollock 認為小資料才是真正的革命,但是小資料和大資料沒有太多的聯絡。
超量化你的資料往往會讓你事倍功半
資料是不是越多越好?答案几乎是否定的。實際上,如果你要想尋找相關性—想知道 X 與 Y 是否有聯絡好讓你可以基於此採取行動的話,收集到的資料越多反而會傷害你。
社交網路分析公司的資料分析首席科學家 Michael Wu 說:“隨著資料規模的不斷增加,你能夠從大資料析取出來的資訊反而會逐漸減少。”也就是說,資料量一旦超過了某個點,增加資料所獲得的回報就會減少,因此,收集更多資料純屬浪費時間。
一個原因:你的資料“越大”,在相關性方面有可能出現的誤報就會越多。資料科學家 Vincent Granville 在大資料之咒中說,哪怕是隻有 1000 條記錄的資料集,要想陷入到“處理好幾百萬的關聯關係”的情況也並不難。這句話的意思是說,“在那麼多的相關性當中,只有少數幾個會因為偶然的原因而相關性極強:如果你用這樣的相關性進行預測建模的話,必輸無疑。”
這個問題一直困擾著大資料應用的鼻祖之一—基因學。科學家滿足於對整個基因序列進行排序,然後深入剖析其中的相關性,這種沒有盡頭的“盤前審問”會導致種種無用的結果發生。
在某些情況下,大資料帶給人的困惑跟啟發一樣多。
對資料採集方式的偏見,缺乏背景資訊,收集資料的缺口,資料處理的手段、整體的認知偏差等等,這些都會導致演算法幻象的產生。換句話說,哪怕你有大資料在手,但是大資料的處理卻仍然需要非常高超的技巧和嫻熟的經驗(除非大資料好用了)。而且即便他們最後分析出了答案,也許那個答案是你根本就不需要“大資料”。
資料究竟是以大為美還是以小為美?
你的企業需不需要資料。當然需要。但是處理規模卻不是購買資料產品的關鍵。同樣的問題自其出現以來也困擾著科學—資料質量、整體目標,上下文的重要性,以及直覺,這些都是企業用資料進行決策所固有的東西。記住:格里格•孟德爾僅靠一本筆記本的資料就發現了基因遺傳的祕密。重要的是收集合適的資料,而不是隨便收集。
文章來自:36kr