讀《大資料時代》開頭部分有感

yuangz發表於2013-11-25

近來“大資料”話題熱火朝天,我雖已過不惑之年,也禁不住“忽悠”,想了解一下“大資料”到底是個什麼東東,以免落後於時代太遠,因此選購了《大資料時代》一書。這兩天終於有點空閒,粗略地讀了前50頁。

首先映入眼簾的是一大堆意見領袖的推薦,由此想到前段時間網路大V薛蠻子被抓後的言論,大致意思是說看粉絲的回覆如皇帝批閱奏摺。說到權利或者說影響力,大致沒人道德高尚到能夠自我約束的程度,除了透明、監督和制約恐怕別無他法。英國人阿克頓說:All power tends to corrupt and absolute power corrupts absolutely. Great men are almost always bad men, even when they exercise influence and not authority。翻譯成中文的大致意思是:“權利讓人墮落,絕對權利絕對讓人墮落。大人物大多不是什麼好鳥,即便他們不利用自己的權利,而只是利用其影響力。”曹丕逼漢獻帝讓位的故事世人皆知,想想曹丕也太不地道,權勢熏天後篡位那是人之常情,況且古人都說“天下有德者居之”呢,但你不能給自己貼金還順帶罵人不帶髒字,給人封個廟號“獻帝”,就是把皇位獻出來。主動把老大的位置讓出來,不是萬不得已誰會這麼傻呀!堯舜是古代君王的典範,一直以來他們主動禪讓都被傳為佳話,最近有位學者說他們這樣做是因為大權旁落,實屬為保全家人的無奈之舉,感覺這種說法符合人性和邏輯。

接著令我驚訝的是,前言說作者在《科學》、《自然》等著名雜誌上公開發表了100多篇論文(雖然沒說具體有多少篇發表在《科學》或《自然》上,可至少也有兩篇吧)。記得上學時聽一位院士做報告,這位院士雖年過六旬,可談及她在《自然(Natural)》雜誌上發表論文時,激動之情相比於懷春少女找到了真命天子有過之而無不及(要知道,在這兩本頂級學術雜誌上發表論文的國人,一年也沒幾個),可你看看人家,在頂級學術雜誌上發表論文跟玩兒似的!

接下來看到的是“資料科學家”。說到科學家,總讓人覺得特別了不起,不是什麼人都配得上這樣的稱呼。多年前,國內就將雜誌《The Economist》的中文譯名從“經濟學家”改為“經濟學人”了,估計也是認為不是什麼人只要在經濟學領域討飯吃就配叫經濟學家的——有人說,大陸配得上“經濟學家”稱號的不超過5人。在英文字典中,對scientist的解釋是:a person who is trained in a science and whose job involves doing scientific research or solving scientific problems;在百度百科中,對“科學家”的解釋如下:“科學家是指專門從事科學研究的人士,包括自然科學家和社會科學家這兩大類。所有自然科學和社會科學的研究人員,達到了一定的造詣,獲得了有關部門和行業內的認可,均可以稱之為科學家。”也就是說,scientist是科研人員的統稱,只有達到了一定造詣、獲得有關行業內認可的科研人員才配“科學家”的稱號。就像我們這些翻書的,都叫譯者,連“翻譯匠”都不配,如果自稱“翻譯家”豈不要遭人鄙視並笑掉大牙。但無論是譯者還是翻譯家,英文大致都是translator。

上面說了這麼多,連正題都沒進入,現在來說說我已看完的第1章。該章的主題是樣本=全體,可列舉的例子總讓人覺得站不住腳。就拿谷歌利用搜尋詞預測流感的例子來說吧,難道得流感的人都會去谷歌搜尋嗎?在你選擇資料的同時,就已將其他資料剔除在外,因為你的資料最多隻涵蓋了網民,可畢竟還有很多人不上網或者得了流感不搜尋。這就像國內通過網路調查房價滿意度一樣,你已經將不上網還有不主動參與調查的人排除在外,這樣獲得的資料再多又能說明什麼問題呢?所以說,所謂的“全體”最多隻能說是可獲得的全部資料,但沒有消除資料獲取方式本身固有的偏差。

相關文章