什麼是資料科學?
我們已經聽到這個觀點:據哈爾•瓦里安(Hal Varian)說,統計學家是下一個性感的工作。五年前,在《什麼是Web 2.0》裡蒂姆•奧萊利(Tim O’Reilly)說“資料是下一個因特爾在內”。但是這句話到底是什麼意思?為什麼我們突然間開始關注統計學和資料?
在這篇博文裡,我會檢視資料科學的各個方面,技術、企業和獨特技能集合。
網際網路上充斥著“資料驅動的應用”。幾乎任何的電子商務應用都是資料驅動的應用。這裡面前端的頁面靠背後的資料庫來支援,它們兩者之間靠中介軟體來連線其他的資料庫和資料服務(信用卡公司、銀行等等)。但是僅僅使用資料並不是我們所說的真正的“資料科學”。一個資料應用從資料裡獲取價值,同時創造更多的資料作為產出。它不只是帶有資料的一個應用,它就是一個資料產品。而資料科學則是能建立這樣的資料產品。
網際網路上早期的資料產品之一就是CDDB資料庫。CDDB資料庫的開發者意識到基於CD(音訊光碟)裡面的每首歌曲的確切長度,任何CD都有一個唯一的數字簽名。Gracenote公司建立了一個資料庫,記錄著歌曲的長度,並和專輯的後設資料(歌曲名稱、歌手和專輯名稱)資料庫關聯。如果你曾經使用iTunes來找CD,你就是在使用這個資料庫服務。iTunes會先獲取每首歌的長度,然後發給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在資料庫裡沒有記錄,你也可以在CDDB裡創造一個無名專輯的題目。儘管看起來很簡單,但這是革命性的。CDDB把音樂看成是資料,而不僅僅是聲音,並從中創造了新的價值。他們的商業模式和傳統的銷售音樂、共享音樂或者分析音樂口味等業務的模式截然不同,儘管這些業務也可以是“資料產品”。CDDB完全是視音樂的問題為資料的問題。
谷歌是創造資料產品的專家,這裡列幾個例子。
谷歌的創新是在於其意識到搜尋引擎可以使用入連結而不是網頁上的文字。谷歌的PageRank演算法是最早一批使用網頁以外的資料的演算法之一,特別是網頁的入連結數,即其他網頁指向某網頁的數量。記錄連結讓谷歌的搜尋引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關鍵的一條。
拼寫檢查不是一個非常難的任務,但是通過在使用者輸入搜尋關鍵詞時,向錯誤拼寫推薦正確的用法並檢視使用者是如何迴應推薦,谷歌讓拼寫檢查的準確率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正確拼寫以及錯誤拼寫常見的上下文。
語音識別也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌通過使用自己收集的語音資料,已經開始了針對這個難題的一個巨集大的嘗試。並已把語音搜尋整合到了核心搜尋引擎裡。
在2009年豬流感的傳播期,谷歌能夠通過跟蹤與流感相關的搜尋來跟蹤這次豬流感的爆發和傳播過程。
點選閱讀原文 ( read more), 獲得更多資訊。
相關文章
- 什麼是全棧資料科學家?全棧資料科學
- 資料科學家最需要什麼技能?資料科學
- 資料科學、機器學習、人工智慧的區別到底是什麼?資料科學機器學習人工智慧
- 什麼是實踐中真正在用的資料科學系統?資料科學
- 到底什麼是大資料?新手學大資料的路徑是什麼?大資料
- 資料分析師與資料科學家有什麼不同? - Reddit資料科學
- 為什麼Jupyter是資料科學家們實戰工具的首選?資料科學
- 什麼是資料庫?什麼是雲資料庫?資料庫
- 什麼是科學:楊立昆 vs. 馬斯克馬斯克
- 資料科學中“專業化”意味著什麼資料科學
- 為什麼資料科學家應該開始學習Swift?資料科學Swift
- 學習資料科學並沒有什麼神祕之處資料科學
- 大資料開發需要學習什麼?大資料平臺是什麼?大資料
- 什麼是大資料?大資料能做什麼?大資料
- 什麼是大資料?大資料開發是做什麼的?大資料
- 什麼是資料運營?資料運營是做什麼的?
- 為什麼Python是資料科學領域的首選語言?Python入門學習Python資料科學
- 讓科學重回資料科學資料科學
- 什麼是資料蔓延?
- 什麼是資料流?
- 什麼是大資料?大資料
- 什麼是資料探勘??
- 什麼是資料集市
- 什麼是結構化資料?什麼是半結構化資料?
- 資料科學資料科學
- 資料是什麼——更多的資料
- 什麼是資料標註,它的用途是什麼?
- 人的資料科學與機器資料科學資料科學
- 大資料能做什麼,為什麼學大資料大資料
- python學習之什麼是組合資料?Python
- 為什麼資料科學家們選擇了Python語言?資料科學Python
- 什麼是資料倉儲?
- 什麼是資料結構資料結構
- 什麼是資料轉換?
- 什麼是資料質量?
- 什麼是資料和資訊
- 什麼是大資料安全?大資料
- 什麼是資料倉儲