我們確定了兩類主要的資料科學技能:一類是大多數受訪者所擁有的穩定技能,這一類有 13 項核心技能;另一類是大多數受訪者尚未擁有但想掌握的熱門 / 新興技能。請參閱我們詳細的分析。
最新的 KDnuggets 投票調查問了如下兩個問題:
- 你目前擁有哪些技能 / 知識領域(在工作或研究中可以使用的水平)?
- 你想增加或提高哪些技能?
我們根據 KDnuggets 之前的一些文章和投票調查,選出了 30 項技能。
這次投票調查總共收到了超過 1500 張投票,這是一個足夠大的樣本,可以做出有意義的推論。平均每個投票者報告聲稱其擁有 10 項技能,並希望增加或者提高 6~7 項技能。 下面的圖 1 顯示了關鍵的調查結果,x 軸表示 % 已擁有技能,顯示的是第一個投票問題的答案;y 軸表示的是 % 想擁有的技能,顯示的是第二個投票問題的答案。每個圓形的大小與已擁有該技能的投票者的百分比成正比,而顏色取決於“想擁有 / 已有用”的比率(>1,比率越高顏色越紅;<1,比率越低顏色越藍)。
在這種圖表中,我們注意到有兩個主要的集合。
圖表右側藍色虛線矩形為第一個集合,該集合包含超過 40% 投票者所擁有的技能,以及“想要擁有 / 已經擁有”的比率小於 1。我們稱之為 核心資料科學技能。它們將在表 1 中列出。
表 1:核心資料科學技能,按 % 已擁有技能降序排列。
其中,最希望新增或提升的技能是機器學習(41%)和 Python(37%)。增長最少的是 Excel——只有 7% 的人想增加或提高他們的 Excel 技能。
圖 1 左側用紅色邊框標記的第二個集合,包括目前不太流行(% 已擁有技能 <30%)但正在增長的技能,“想擁有 / 已有用”的比率大於 1,請見表 2。我們將其稱為熱門 / 新興資料科學技能。
表 2:熱門 / 新興資料科學技能,按“想擁有 / 已擁有”降序排列。
有趣的是,儘管有人認為 Hadoop 正在走下坡路,但在這次投票調查中,想學習 Hadoop 的人比已經知道它的人還多,所以 Hadoop 有可能仍然會越來越受歡迎。儘管 Julia 的“想擁有 / 已擁有”的比率為 3.4,但我們仍然沒有將它包括在熱門 / 新興技能中,因為只有 2% 的投票者選擇了它,因此它並不具備足夠的支援。
其餘的技能,如 XGBoost、軟體工程、Java、MATLAB、SAS 只被 10%~30% 的投票者擁有,但沒有增長:“想擁有 / 已擁有”的比率小於 1。
表 3:其他資料科學技能,按 % 已擁有的百分比遞減
小假面是關於投票調查的更多細節。圖 2 按 % 已擁有進行降序排列。
圖 3 顯示了讀者想要增加或提高的技能,以及他們所擁有的技能:
我們看到,現有的和有意向的資料科學家想要新增的頂級技能是深度學習、TensorFlow、機器學習和 Python。
投票調查還詢問了就業型別:
- 行業 / 自僱:64.4%
- 政府 / 非營利組織:7.2%
- 學術界 / 大學:7.0%
- 學者:14.3%
- 其他 /NA:7.1%
區域分佈為:
- 美國 / 加拿大:37.9%
- 歐洲:28.3%
- 亞洲:19.3%
- 拉丁美洲:6.1%
- 非洲 / 中東:4.8%
- 其他:3.5%
Gregory Piatetsky-Shapiro 博士是 KDnuggets 的總裁,也是大資料、資料探勘和資料科學領域的領軍人物。他是資料探勘和資料科學領先研究會議 KDD 的共同創始人,也是 ACM SIGKDD 的共同創始人和前任主席。他還是兩家初創公司的首席科學家。
原文連結: https://www.kdnuggets.com/2019/09/core-hot-data-science-skills.html