哪些資料科學技能是僱主所需要的
這是一個好訊息,如果你希望在2016年找一份資料科學的工作—在該領域職位空缺的數量正在不斷增加,企業希望利用大資料來獲得競爭優勢。但事實上,找一份夢寐以求的資料科學工作就意味著你要具備一些技能的組合,你可能會驚訝學習哪些技能是僱主所最需要的。
最近,人們在CrowdFlower上針對Linkedin的3490個資料科學職位做了分析,並對最常出現的21個技能進行了排序。有些結果並不那麼令人驚訝—SQL排在最前,而其它的結果可能是資料科學領域不斷髮展的領先指標。
如上所述,SQL是最常見的技能,在Linkedin釋出的所有資料科學工作中佔比達到了57%。Hadoop排在第二,佔比49%。這並不出乎CrowdFlower公司CEO和創始人Lukas Biewald的意料。CrowdFlower是美國矽谷一家從事眾包資料處理的公司。
“SQL和Hadoop排在前兩位並沒什麼驚訝的,因為它們本身就是儲存資料的技術”Biewald告訴Datanami(本文轉譯自該網站)。“每個資料科學家必須知道如何獲取資料。如果你不知如何獲取資料,那你什麼都做不了。”
在所有資料科學的招聘資訊中,python是排在第三名的技能。在CrowdFlower去年關於資料科學家哪些技能是最重要的調查中,python排在R的後面。但在本次招聘資訊的調查中(這無疑是更具有前瞻性的範圍),python作為資料科學的一項關鍵性技能佔比達到了39%。相比之下,R是32%。
相比R來說,為什麼現在越來越多的僱主正在尋找具備python技能的資料科學家?Biewald提出了自己的看法:“python的工具集越來越好。已經有很多基於python的統計工具”。“還有一個認識是資料科學不僅僅是統計學”
設想一下,資料科學家80%的時間花費在資料清理和資料準備上,而只有20%的時間是用來做分析。這或許可以解釋python突然出現的原因。 “我認為Python是做資料清理的語言,而R是做分析的”,Biewald說到。在創辦CrowdFlower之前,他負責領導Yahoo的搜尋相關團隊。“由於資料科學更多的是做資料清洗和準備,python正變得越來越重要。它無疑是將資料整理成適合做分析的資料格式最好的語言”
事實上,Java排在第四位讓人有點摸不著頭腦。因為Java本身不是資料科學所要求的掌握一門語言,當你在java中寫Hadoop的時候,它的高配就顯得有道理了。其它跟Hadoop相關的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。
對於這份CrowdFlower從Linkedin編輯過來的職位列表,多少有些遺漏。Apache Spark,在上面給出的資料科學技能要求中沒有出現過。Scala也沒有出現過,它是在Spark框架內處理資料的主要途徑之一。
這可能是因為Spark還比較前沿,大家對它知之甚少。“現在周圍對它有很多炒作,但可能還是太早了”Biewald說到。“在CrowdFlower,我們已經開始使用它了。我認為這門技術很棒,但在企業真正使用它的時候會有些滯後”。
Spark和Scala可能是資料科學的未來(它們在Alphabet[NASDAQ:GOOGL]公司中得到大力支援,矽谷的許多高科技公司也在廣泛的使用它們)。但不是每個資料科學專案或團隊都需要走在技術的最前沿才能實現他們的大資料成果。“令人驚訝的是現在很多人都在尋找資料科學家,但是我認為他們中的很多人是不想走在最前沿的”Biewald說到。
這份CrowdFlower列表中包含了許多知名的資料分析工具,包括SAS(佔比16%),SPSS(10%),Matlab(10%)和Stata(佔比3%)。Biewald認為這些工具仍是有價值的並且在未來一段時間內還會繼續使用。但是他希望它們的市場份額逐漸被那些專門為大資料設計的新工具所奪走。
“資料科學的角色大於統計學家”他說。“在我們的腦海裡,這些舊的語言更多的是建立在統計學家的基礎上,它們只是對少量的資料進行分析。而排名在前的Hadoop,python和Java則可以執行TB級的資料。你可以用SAS,SPSS,Matlab來做大資料分析,但這不是它們設計的目的”。
不是每個人都同意“資料科學”或“資料科學家”應該做什麼以及應該掌握什麼樣技能的定義。事實上,一些人反對使用術語“科學”,而寧願用諸如“應用統計”的短語。(想起了哈佛商業評論稱應用統計學家是21世紀最性感的職業)
但在Biewald和其他人眼中,處理資料的能力和統計分析的能力同等重要。這就是他對資料科學家進一步給出的定義。
“在過去,我們處理幾千條記錄的時候不是特別難。但是,當資料量達到數十億條記錄的時候我們就需要真本事來得到一個規範的格式,以便我們進一步做迴歸或機器學習”他說。“對於這種情況,我想要聘請的是一名掌握python或者是C、Perl、Ruby亦或是一門更多做資料處理而不是做資料分析的語言的資料科學家”
本文由雪晴資料網負責翻譯整理,原文請參考What Data Science Skills Employers Want Now作者Alex Woodie。轉載請註明原文連結http://www.xueqing.cc/cms/article/110
相關文章
- 資料科學技能中,哪些是核心技能,哪些是熱門/新興技能?資料科學
- 資料科學家需要的基礎技能資料科學
- 資料科學家最需要什麼技能?資料科學
- 資料科學職業需要的三種職業技能資料科學
- 資料科學工作需要的十大職業技能列表資料科學
- 做大資料工程師需要掌握哪些技能呢?大資料工程師
- 年薪20W+的資料科學家有哪些必備技能?先從Python資料分析開始!資料科學Python
- 大資料開發工程師需要具備哪些技能?大資料工程師
- 網路安全的學習,都需要掌握哪些技能?
- 演算法金 | 讓資料講故事:資料視覺化的藝術與科學,幾乎是每個領域都需要掌握的技能演算法視覺化
- 學習大資料需要掌握MySQL資料庫的相關技能嗎?大資料MySql資料庫
- 人工智慧需要學習的知識技能有哪些?人工智慧
- Python培訓分享學Python需要掌握哪些技能Python
- 一文詳解資料科學家的必備技能資料科學
- 網路安全需要學習哪些技能?網路安全學習
- 一文詳解資料科學家的必備技能(附學習資源)資料科學
- 大資料時代,財經類媒體人需要掌握哪些技能大資料
- 資料科學新人需要知道的13個雷區資料科學
- 轉行Java需要掌握哪些技能?Java
- 做專案管理需要哪些技能專案管理
- 如何學習Java? 在學習Java的過程中需要掌握哪些技能?Java
- 什麼是爬蟲?Python爬蟲工作需要掌握哪些技能?爬蟲Python
- 資料科學50年,資料科學家是否依然是21世紀最性感的職業?資料科學
- 社群運營需要哪些技能?新媒體運營學習
- 網路安全難學嗎?網路安全需要掌握哪些技能?
- 網路安全需要掌握哪些技能?網路安全怎麼學?
- 學K8S需要掌握哪些技能?K8S學習K8S
- 什麼是全棧資料科學家?全棧資料科學
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 資料科學資料科學
- 大資料工程師需要學習哪些技術?大資料工程師
- 學習Java大資料都需要哪些基礎Java大資料
- 想從事資料科學領域,需要多少數學知識?資料科學
- 成為優秀的資料分析師,需要具備哪些技能? 看完這篇你就懂了!
- 網路安全需要掌握哪些技能?網路安全入門學習
- 資料分析師必備技能都有哪些?
- Java找工作需要具備哪些技能?Java
- 發展Linux運維需要掌握哪些技能?Linux運維
- 【IT運維】Linux運維需要掌握哪些技能?運維Linux