資料分析師掙多少錢?“黑”了招聘網站告訴你!

優達學城Udacity發表於2017-12-18

作者/ 魏凱

Udacity “資料分析師”奈米學位專案學員


從去年7月份開始學習 Udacity 的“資料分析師”奈米學位課程,到現在也算學了不少內容,接下來打算慢慢開始找工作了。既然想要從事資料分析師這個崗位,那自然首先需要對這個崗位有所瞭解。最直接、最真實的方式就是從企業那裡獲得需求訊息,這樣才最能夠指導自己的學習方向和簡歷準備。本次專案即是要利用爬蟲爬取拉勾網上資料分析這一崗位的資訊,然後進行一些探索和分析,以資料分析來了解‘資料分析’。


資料來源

本專案所使用的資料集全部來自拉勾網,是通過集搜客這一網路爬蟲工具來爬取的。集搜客是一款簡潔易用且功能強大的網路爬蟲產品,通過滑鼠點選和簡單的命令操作即可實現爬蟲的定製和執行,這裡也推薦一下。之所以選擇拉勾網作為本專案的資料來源,主要是因為相對於其他招聘網站,拉鉤網上的崗位資訊非常完整、整潔,極少存在資訊的缺漏。並且幾乎所有展現出來的資訊都是非常規範化的,極大的減少了前期資料清理和資料整理的工作量。(筆者畢竟是工作之餘完成,時間有限,能省則省)本次爬取資訊的時候,主要獲得了以下資訊:

內容欄位
崗位名稱title
月薪month_salary
公司名稱company
所屬行業industry
公司規模scale
融資階段phase
投資人investors
所在城市city
經驗要求experience
學歷要求qualification
全職/兼職full_or_parttime
職位描述及任職要求description


專案目的

主要是希望通過實際的資料來解答針對資料分析崗位的一些疑惑,Udacity資料分析師課程的童鞋一些參考性的意見。具體來說,主要針對以下幾個問題:


- 資料分析師崗位需求的地域性分佈;

- 整個群體中薪酬分佈的情況;

- 不同城市資料分析師的薪酬情況是怎樣的;

- 該崗位對於工作經驗的要求是怎樣的;

- 根據工作經驗的不同,薪酬是怎樣變化的;

- 從用人單位的角度看,資料分析師應當具備哪些技能?

- 掌握不同技能是否會對薪酬有影響?影響是怎樣的?


技術和工具

本專案主要分為兩大部分,第一部分是資料爬取,採用的是集搜客網路爬蟲工具。第二部分是資料分析,以python程式語言為基礎。資料分析部分主要使用pandas作為資料整理和統計分析的工具,matplotlib用於圖形的視覺化,seaborn庫包用於圖形美化。在進行技能需求分析的時候,使用了jieba作為分詞工具包,並使用wordcloud包製作詞雲。


資料整理


載入和清理


* 點選圖片縮圖可放大,下同。


資料分析師掙多少錢?“黑”了招聘網站告訴你!

資料分析師掙多少錢?“黑”了招聘網站告訴你!

資料分析師掙多少錢?“黑”了招聘網站告訴你!

可以看到,經過初步清理後,資料集中有效變數為13個,資料記錄575條。除了投資人這一項之外,其他各欄位的資料完整度非常好,幾乎沒有缺失值。這對於後面的分析來說是個大大的好訊息。



資料分析


地域性分佈


資料分析師掙多少錢?“黑”了招聘網站告訴你!

<matplotlib.text.Text at 0x1102e1f90>複製程式碼

資料分析師掙多少錢?“黑”了招聘網站告訴你!


在拉勾網上,全國有29個城市的企業郵資料分析師的人才需求,其中將近一半需求產生在北京市,需求量全國第一。排在前5的分別是:北京、上海、深圳、杭州、廣州。資料分析這一職業大量集中在北上廣深四大一線城市,以及杭州這個網際網路和電子商務企業的聚集地。北京市巨大的需求比重令我稍感意外,不過,考慮到拉勾網是一個偏重網際網路相關行業的招聘平臺,而我國大量網際網路企業在北京聚集,這個結果倒也算合理。以後有時間,可以對全國網際網路行業分佈特點做個分析。


總而言之,可以得出一個清晰的結論:資料分析這一崗位,有大量的工作機會集中在北上廣深以及杭州,期待往這個方向發展的同學還是要到這些城市去多多嘗試。當然,從另一個方面說,這些城市也都集中了大量的各行業人才,競爭壓力想必也是很大的。


總體薪酬情況


資料分析師掙多少錢?“黑”了招聘網站告訴你!

/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:16: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy複製程式碼


([<matplotlib.axis.XTick at 0x11ccaa290>,
  <matplotlib.axis.XTick at 0x11d478210>,
  <matplotlib.axis.XTick at 0x11d5652d0>,
  <matplotlib.axis.XTick at 0x11d602f10>,
  <matplotlib.axis.XTick at 0x11d6116d0>,
  <matplotlib.axis.XTick at 0x11d528290>,
  <matplotlib.axis.XTick at 0x126eb4c10>,
  <matplotlib.axis.XTick at 0x11d441e90>,
  <matplotlib.axis.XTick at 0x11d611bd0>,
  <matplotlib.axis.XTick at 0x11d618390>,
  <matplotlib.axis.XTick at 0x11d618b10>,
  <matplotlib.axis.XTick at 0x11d6242d0>,
  <matplotlib.axis.XTick at 0x11d624a50>,
  <matplotlib.axis.XTick at 0x11d62d210>,
  <matplotlib.axis.XTick at 0x11d62d990>,
  <matplotlib.axis.XTick at 0x11d637150>,
  <matplotlib.axis.XTick at 0x11d6378d0>,
  <matplotlib.axis.XTick at 0x11d642090>,
  <matplotlib.axis.XTick at 0x11d642810>],
 <a list of 19 Text xticklabel objects>)複製程式碼


資料分析師掙多少錢?“黑”了招聘網站告訴你!

如同大多數其他工作一樣,資料分析師的薪酬也是一個右偏分佈。大多數人的收入集中在5k-20k每月,只有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。需要說明的是,拉勾網上的薪酬值是一個區間值,並且相互之間互有重疊,為了便於分析,我取區間的中值作為代表值進行的分析。因此,實際的薪酬分佈情況可能會比圖中的情況更好一些。總是有人能夠拿到薪酬的上限。綜合來看,資料分析師的薪酬收入整體還是可觀的,從這方面說,選擇這個職業還是不錯的。


不同城市薪酬分佈情況


資料分析師掙多少錢?“黑”了招聘網站告訴你!

<matplotlib.text.Text at 0x115796650>

資料分析師掙多少錢?“黑”了招聘網站告訴你!

忽略掉那些人才需求量比較小的城市,我重點關注排名前六的城市。從圖上看,這六大城市的薪酬分佈情況總體來說都比較集中,這和我們前面看到的全國的薪酬總體情況分佈是一致的。深圳市薪酬分佈中位數大約在15k,居全國首位。其次是北京,約12.5k,之後是上海和杭州。深圳確實是個創造奇蹟的城市,在這裡也給了我一個小小的驚喜。從待遇上看,資料分析師留在深圳發展是個不錯的選擇。


工作經驗需求

資料分析師掙多少錢?“黑”了招聘網站告訴你!


/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/pandas/core/indexing.py:132: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:25: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)複製程式碼


<matplotlib.text.Text at 0x110577dd0>

資料分析師掙多少錢?“黑”了招聘網站告訴你!


不出所料的,工作經驗的需求分佈近似於正態分佈。工作1-3年經驗的熟手需求量最大,其次是3-5年工作經驗的資深分析師。工作經驗不足1年的新人,市場需求量比較少。另外,工作經驗要5-10年的需求量非常稀少,而10年以上的更是鳳毛麟角。


從這個分佈我們大致可以猜測出:


資料分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年;對於資料分析師來說,5年是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。


不同工作經驗的薪酬分佈


資料分析師掙多少錢?“黑”了招聘網站告訴你!

<matplotlib.text.Text at 0x11cc58f50>

資料分析師掙多少錢?“黑”了招聘網站告訴你!

毫無疑問的,隨著經驗的提升,資料分析師的薪酬也在不斷提高。另外,從現有資料來看,資料分析師似乎是個常青的職業方向,在10年內大概不會因為年齡的增長導致收入下降。


職業技能關鍵詞


資料分析師掙多少錢?“黑”了招聘網站告訴你!

資料分析師掙多少錢?“黑”了招聘網站告訴你!

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/p7/6s6n_sw53dq_w9j52wlzyl800000gn/T/jieba.cache
Loading model cost 0.417 seconds.
Prefix dict has been built succesfully.
/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:7: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy複製程式碼


資料分析師掙多少錢?“黑”了招聘網站告訴你!


詞雲顯示出的情況,有點超出了我的預料。對於資料分析師這一崗位,企業需求頻率最高的技能並不是Python語言和R語言等如今非常時髦的資料分析語言,而是傳統的結構化查詢語言SQL和表格神器Excel。這一點需要各位小夥伴注意,要想從事資料分析師崗位,SQL和Excel看起來是必備技能。 從詞雲上看出,資料分析師技能需求頻率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI軟體等屬於第二梯隊。


掌握不同技能對薪酬收入的影響


資料分析師掙多少錢?“黑”了招聘網站告訴你!

資料分析師掙多少錢?“黑”了招聘網站告訴你!

/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__main__.py:13: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy複製程式碼

<matplotlib.text.Text at 0x11f59b890>

資料分析師掙多少錢?“黑”了招聘網站告訴你!


我對需求頻率最高的前15個技能進行統計計算,得出每一個技能對應的平均薪酬水平,如上圖。點的大小代表該技能需求量的多少。


在前15項技能中,shell,Hive, Spark這三者的平均薪酬水平最高,並且相對其他技能來說有比較大的差異。對資料分析師工作有所瞭解的人應該都知道,這三個工具中,Hive和Spark都是應用於分散式資料處理,而shell指令碼則是Linux系統下工作的必須技能。這三者共同指向了一個方向,那就是海量資料的分散式處理!


所以,想要拿高薪的小夥伴注意了,海量資料處理、分散式處理框架是走向高薪的正確方向。 另外值得注意的是,在資料分析領域,Python語言的平均薪酬水平要高於目前如日中天的Java語言。而SQL語言和傳統的SAS,SPSS兩大資料分析軟體,則能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。


分析結論

通過上面的分析,我們可以得到的結論有這些: 資料分析這一崗位,有大量的工作機會集中在北上廣深以及杭州。 大多資料分析師的收入集中在5k-20k每月,只有少數人能夠獲得更高的薪酬,但有極少數人薪酬極高,讓人充滿期待。


從待遇上看,資料分析師留在深圳發展是個不錯的選擇,其次是北京、上海。 資料分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年。


對於資料分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有轉型或者質的提升,大概以後的競爭壓力會比較大。 隨著經驗的提升,資料分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。


資料分析師需求頻率排在前列的技能有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel簡直可以說是必備技能。 海量資料、分散式處理框架是走向高薪的正確方向。 SQL語言和傳統的SAS,SPSS兩大資料分析軟體,能夠讓你在保證中等收入的條件下,能夠適應更多企業的要求,也就意味著更多的工作機會。


思考和總結

對於資料分析師技能的分析是比較簡陋的,在本次分析過程中,僅針對工具型的技能進行了分析。但其實,資料分析師所需要具備的素質遠不止這些,還需要有紮實的數學、統計學基礎,良好的資料敏感度,開拓但嚴謹的思維等。如果要對這些內容進行深入挖掘的話,應該會更加有趣。不過,要進行這項內容的話,需要掌握大量中文分詞、關鍵字提取等方面的知識和技能,難度也會更高。時間所限,在這裡不再進一步展開了,希望以後有時間再做一個專項分析吧。 讓人忍不住吐槽的是,Python2.X環境對中文編碼的支援著實不夠好,在處理資料的時候消耗了大量的時間和精力,也犯了不少錯,走了很多彎路。以後這一塊的內容要找時間專門攻堅一下,也可以考慮換到python3平臺去。


特別說明:本次資料來源完全來自拉勾網,但拉勾網本身是專注於網際網路相關行業的招聘平臺,所以本次分析出的結論更加適用於網際網路行業的相關企業,對於其他行業的企業,未必合適。


相關文章