在Google、Amazon、Facebook、Uber、Airbnb等公司成功的背後,有這樣一批人:他們可以將大量的資料變為有價值的金礦,例如,搜尋結果、定向廣告、準確的商品推薦、可能認識的好友列表等。沒錯,他們就是被譽為「今後10年IT行業最重要的人才」—— Data Scientist(資料科學家)。


現在的網際網路行業,越來越多的企業對資料科學家求賢若渴。


123

雖然資料科學家的需求一直在快速增長,但事實是在業內還沒有對資料科學家的準確定義。有人開玩笑說,「資料科學家就是住在矽谷的資料分析師」,甚至有人畫了這樣的漫畫:

124

沒錯,找到一位優秀的資料科學家和找到一個理解資料科學家是做什麼的人一樣難。

要理解資料科學家是做什麼,首先要理解人盡皆知卻總被誤讀的大資料:大資料不是大量的資料,而是複雜的資料。

《大資料時代》聯席作者Kenneth Cukier在Ted上的熱門演講:《Big data is better data》,告訴你大資料驅動技術和設計的未來,以及大資料的「好」與「壞」。

(視訊時長16”,建議在WiFi環境下觀看)

http://v.qq.com/page/s/u/t/s01410kjnut.html

這些解決複雜資料帶來的問題的人,就是資料科學家。

那麼,資料科學家在工作中是怎樣解決問題的呢?

分享兩個共享經濟的典範:Airbnb和Uber——在運用大資料方面的經驗。

1、Airbnb

在Airbnb,工程師要解決這樣一個問題:如何讓使用者瞭解一個自己從來沒去過的地方?如何知道哪個地方最適合自己的旅行?

Airbnb擁有海量的獨有資料,包括旅遊地、使用者評論、房源描述、社群資訊等,Airbnb還有一支隊伍去各地和當地人交流,蒐集所有的相關歷史資料。Airbnb的資料科學家是這樣運用資料的:

125

(Airbnb accommodations (red) and traditional accommodations (blue) in San Francisco)

  • 當使用者在搜尋一個住宿的地方時,Airbnb的「location relevance model」會通過Airbnb社群告訴未來的客人哪裡是更好的住宿地。
  • 當使用者在尋找想體驗的新地方時,「Airbnb Neighborhoods」會將當地的內容編輯親手整理的必備資料和專業的照片呈獻給使用者。
  • Airbnb的「discovery team」通過自然語言處理和機器學習來為使用者搜尋關鍵詞提供更準確的推薦。
  • Airbnb甚至造了一個叫做「AT-AT」的複雜工具,幫助使用者更深入地瞭解某個地點,包括地理資訊無法描述的文化或宗教上的區分。

2、Uber

縮短開著空車去接下一位乘客的時間和乘客等待的時間是Uber的車主和乘客的共同需求,他們希望這些時間越短越好。為此,Uber的資料科學家建立了「Location-based demand models」。

126

(Uber heatmap in San Francisco)

每天實時更新的熱點地圖(Heatmaps)可以有效幫助車主縮短空載時間,同時幫乘客減少等待時長。下一步,這張圖甚至可以預測,這樣車主會知道提前去哪裡等待可以載到更多的乘客。


資料科學家的由來和定義

雖然資料科學三十年前就誕生了,但是資料科學家卻是幾年前剛出現的一個新詞。在《資料之美》一書中,我們可以看到Facebook的資料科學家的起源:

在Facebook,我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團隊的一個成員可以用Python實現一個多階段的處理管道流、設計假設檢驗、用工具R在資料樣本上執行迴歸測試、在Hadoop上為資料密集型產品或服務設計和實現演算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了「資料科學家」這種角色。

所以,用一句話總結「資料科學家」的定義:

運用統計分析、機器學習、分散式處理等技術,從大量資料中提取出對業務有意義的資訊,以易懂的形式傳達給決策者,並創造出新的資料運用服務的人才。

資料科學家有哪幾種類別?

為了更好地闡釋資料科學家,我們將它分為三類:

  • 理論資料科學家致力於資料科學的理論研究,為其他的資料科學家創造框架和工具。本質上是將統計資料、資料儲存和電腦科學在理論層面應用於大資料的學者。
  • 應用資料科學家對於如何運用大資料有更好的理解。科學需要嚴謹,我認為資料應用植根於學術嚴謹,但是在應用層面工作。應用資料科學家的工作是先進行架設,再用大資料進行驗證。每個人都會受惠於他們的研究發現和工具。
  • 行業資料科學家用應用資料科學地解決某個具體的市場問題、行業、生意,實現利益最大化的單一目的。行業資料科學家得擅長溝通,能夠讓他們的發現應用於商業。將工商、經濟和會計方面的經驗應用在商業領域是他的價值所在。與商業分析師和商業顧問的角色有點相似。


要成為一名資料科學家,需要掌握哪些核心技能?

作為一名資料科學家,一般需要程式設計和資料庫、數學&統計、交流和視覺化、領導力和軟技能:四個方面的技能。

127

1、程式設計和資料庫

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景,掌握對處理大資料所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。一般能利用python熟練的獲取資料,整理資料,並會使用matplotlib展現資料。

2、數學、統計和資料探勘

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境「R」最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。

3、資料視覺化

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

4、領導力和軟技能

資料科學家不僅要具有黑客的頭腦,對資料有好奇心,還要對商業有熱情,是有影響力、有創造力,能解決問題的人。

總之,資料科學家之所以被稱為「科學家」,而區別於「資料工程師」和「資料分析師」,其根本在於對資料有極端敏銳的直覺和本質的認知,對問題和業務有深入的洞察和理解,因而能夠解決複雜資料帶來的問題。

來源:網路