什麼是資料科學?

OReillyData發表於2016-04-07

我們已經聽到這個觀點:據哈爾•瓦里安(Hal Varian)說,統計學家是下一個性感的工作。五年前,在《什麼是Web 2.0》裡蒂姆•奧萊利(Tim O’Reilly)說“資料是下一個因特爾在內”。但是這句話到底是什麼意思?為什麼我們突然間開始關注統計學和資料?

在這篇博文裡,我會檢視資料科學的各個方面,技術、企業和獨特技能集合。

網際網路上充斥著“資料驅動的應用”。幾乎任何的電子商務應用都是資料驅動的應用。這裡面前端的頁面靠背後的資料庫來支援,它們兩者之間靠中介軟體來連線其他的資料庫和資料服務(信用卡公司、銀行等等)。但是僅僅使用資料並不是我們所說的真正的“資料科學”。一個資料應用從資料裡獲取價值,同時創造更多的資料作為產出。它不只是帶有資料的一個應用,它就是一個資料產品。而資料科學則是能建立這樣的資料產品。

網際網路上早期的資料產品之一就是CDDB資料庫。CDDB資料庫的開發者意識到基於CD(音訊光碟)裡面的每首歌曲的確切長度,任何CD都有一個唯一的數字簽名。Gracenote公司建立了一個資料庫,記錄著歌曲的長度,並和專輯的後設資料(歌曲名稱、歌手和專輯名稱)資料庫關聯。如果你曾經使用iTunes來找CD,你就是在使用這個資料庫服務。iTunes會先獲取每首歌的長度,然後發給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在資料庫裡沒有記錄,你也可以在CDDB裡創造一個無名專輯的題目。儘管看起來很簡單,但這是革命性的。CDDB把音樂看成是資料,而不僅僅是聲音,並從中創造了新的價值。他們的商業模式和傳統的銷售音樂、共享音樂或者分析音樂口味等業務的模式截然不同,儘管這些業務也可以是“資料產品”。CDDB完全是視音樂的問題為資料的問題。

谷歌是創造資料產品的專家,這裡列幾個例子。

  • 谷歌的創新是在於其意識到搜尋引擎可以使用入連結而不是網頁上的文字。谷歌的PageRank演算法是最早一批使用網頁以外的資料的演算法之一,特別是網頁的入連結數,即其他網頁指向某網頁的數量。記錄連結讓谷歌的搜尋引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關鍵的一條。

  • 拼寫檢查不是一個非常難的任務,但是通過在使用者輸入搜尋關鍵詞時,向錯誤拼寫推薦正確的用法並檢視使用者是如何迴應推薦,谷歌讓拼寫檢查的準確率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正確拼寫以及錯誤拼寫常見的上下文。

  • 語音識別也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌通過使用自己收集的語音資料,已經開始了針對這個難題的一個巨集大的嘗試。並已把語音搜尋整合到了核心搜尋引擎裡。

  • 在2009年豬流感的傳播期,谷歌能夠通過跟蹤與流感相關的搜尋來跟蹤這次豬流感的爆發和傳播過程。




點選閱讀原文 ( read more), 獲得更多資訊。


相關文章