資料科學家最常用的十種演算法
資料科學家最常用的十種演算法
資料科學家最常用的十種演算法
來源:資料探勘
編輯:Gemini
最新一期的 KDnuggets 調查展示了一份資料科學家使用度最高的演算法列表,這份列表中包含了很多驚喜,包括最學術的演算法和麵向產業化的演算法。
哪些方法/演算法是您在過去 12 個月中運用到一個實際的資料科學相關的應用程式中的?
這是基於 844 個投票者的結果
排名前十的演算法以及他們的投票者的比例分佈如下:
圖 1 :資料科學家使用度最高的 10 大演算法
文末有全部演算法的集合列表
每個受訪者平均使用 8.1 個演算法,這相比於 2011 的相似調查顯示的結果有了巨大的增長
與 2011 年關於資料分析/資料探勘的調查相比,我們注意到最常用的方法仍然是迴歸、聚類、決策樹/Rules 和視覺化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下演算法:
Boosting ,從 2011 年的 23.5% 至 2016 年的 32.8%,同比增長 40%
文字挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,同比增長 30%
視覺化,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長 27%
時間序列/序列分析,從 2011 年的 29.6% 至 2016 年的 37.0%,同比增長 25%
異常/偏差檢測,從 2011 年的 16.4% 至 2016 年的 19.5%,同比增長 19%
整合方法,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長 19%
支援向量機,從 2011 年的 28.6% 至 2016 年的 33.6%,同比增長 18%
迴歸,從 2011 年的 57.9% 至 2016 年的 67.1%,同比增長 16%
最受歡迎演算法在 2016 年的調查中有了新的上榜名單:
K- 近鄰,46%
主成分分析,43%
隨機森林,38%
優化,24%
神經網路 - 深度學習,19%
奇異值分解,16%
最大幅下降的有:
關聯規則,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
隆起造型,從 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
生存分析,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
下表顯示了不同的演算法型別的使用:監督演算法、無監督演算法、元演算法,以及職業型別決定的對演算法的使用。我們排除 NA(4.5%)和其他(3%)的職業型別。
表 1:根據職業型別顯示的不同演算法使用度
我們注意到,幾乎每個人都使用監督學習演算法。
政府和產業業資料科學家比學生和學術研究人員使用更多不同型別的演算法,而產業資料科學家們更傾向於使用元演算法。
接下來,我們根據職業型別分析了前 10 名的演算法+深度學習使用情況。
表 2:根據職業型別分類的 10 大演算法+深度學習使用情況
為了更明顯的看到差異,我們計算了具體職業分類相比於平均演算法使用度的一個演算法偏差,即偏差(ALG,型別)=使用(ALG,型別)/使用(ALG,所有的)
圖 2:職業對演算法的使用偏好
我們注意到,產業資料科學家們更傾向於使用迴歸、視覺化、統計、隨機森林和時間序列。政府/非營利更傾向於使用視覺化、主成分分析和時間序列。學術研究人員更傾向於使用主成分分析和深度學習。學生普遍使用更少的演算法,但多為文字挖掘和深度學習。
接下來,我們看看某一具體地域的參與度,表示整體的 KDnuggets 的使用者:
美國/加拿大,40%
歐洲,32%
亞洲,18%
拉丁美洲,5%
非洲/中東,3.4%
澳洲/紐西蘭,2.2%
由於在 2011 年的調查中,我們將產業/政府分在了一組,而將學術研究/學生分在了第二組,並計算了演算法對於業界/政府的親切度:
N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)
因此親切度為 0 的演算法表示它在產業/政府和學術研究人員或學生之間的使用情況對等。越高 IG 親切度表示演算法越被產業界普遍使用,反之越接近「學術」。
最「產業」的演算法是:
異常檢測,1.61
生存分析,1.39
因子分析,0.83
時間序列/序列,0.69
關聯規則,0.5
而 uplifting modeling 又是最「產業的演算法」,令人驚訝的發現是,它的使用率極低 - 只有 3.1% - 是本次調查的演算法中最低的。
最學術的演算法是:
常規神經網路,-0.35
樸素貝葉斯,-0.35
支援向量機,-0.24
深度學習,-0.19
EM ,-0.17
下圖顯示了所有的演算法及其產業/學術親切度。
圖 3:KDnuggets 投票:最常被資料科學家使用的演算法:產業界 VS 學術界
下表有關於演算法的細節、兩次調查中使用演算法的比例、以及像上面解釋的產業親切度。
接下來的圖表展示了演算法的細節,按列
N :根據使用度排名
演算法:演算法名稱,
型別:S - 監督,U - 無監督,M - 元,Z - 其他,
在 2016 年調查中使用這種演算法的調查者比例
在 2011 年調查中使用這種演算法的調查者比例
變動(%2016 年/2011% - 1),
產業親切度(如上所述)
表 3:KDnuggets 2016 調查:資料科學家使用的演算法
轉自:https://mp.weixin.qq.com/s/dv9cJT3be7Ax3W_enAg_ng
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2215098/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 「資料科學家」必備的10種機器學習演算法資料科學機器學習演算法
- 未來資料科學家必備的【核心演算法】與【常用模型】資料科學演算法模型
- 成為資料科學家應該知道的10種機器學習演算法資料科學機器學習演算法
- 資料科學50年,資料科學家是否依然是21世紀最性感的職業?資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- 一文盤點5種聚類演算法,資料科學家必備!聚類演算法資料科學
- 詳解:十種常用的的資料分析思路!
- 人工智慧和資料科學團隊中的十種角色 - kdnuggets人工智慧資料科學
- 資料科學家的命令列技巧資料科學命令列
- 公民資料科學家的侷限性資料科學
- 資料科學家需要掌握的十大統計技術詳解資料科學
- 資料科學家需要的基礎技能資料科學
- Facebook 科學家:別給演算法模型喂垃圾資料了…演算法模型
- 我在2020年作為資料科學家學習的8種新工具 - kdnuggets資料科學
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- Spotify如何改進資料科學家的資料發現?資料科學
- 業界 | 資料科學家“恐怖故事”資料科學
- 如何成為資料科學家? - kdnuggets資料科學
- 資料科學求職建議:掌握5種型別的資料科學專案資料科學求職型別
- [譯] 資料科學領域十大必知機器學習演算法資料科學機器學習演算法
- 前端常用6種資料加密方式的使用(最詳解)前端加密
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- 盤點5個常用的Python資料科學庫!Python資料科學
- 資料科學家最需要什麼技能?資料科學
- 什麼是全棧資料科學家?全棧資料科學
- 電信中的十大資料科學用例 -KDnuggets大資料資料科學
- 資料工程師、掌握資料分析,成為資料科學家、資料庫遷移專家工程師資料科學資料庫
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- 初創公司資料科學專案全流程指南,一位資深資料科學家的經驗談資料科學
- 深度學習常用的資料集,包括各種資料跟影象資料深度學習
- 資料科學職業需要的三種職業技能資料科學
- Python---資料科學領域常用的15個Python包Python資料科學
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- 一文詳解資料科學家的必備技能資料科學
- 如果倫敦地鐵圖是資料科學家畫的……資料科學
- 程式碼排名前1%的資料科學家揭露我們容易犯的十大編碼錯誤!資料科學