未來資料科學家必備的【核心演算法】與【常用模型】
未來資料科學家必備的
核心演算法與常用模型
機器學習和統計學是資料科學的兩個主要理論基礎。本文為您盤點資料科學家必備的核心機器學習演算法和常用統計模型。
1Machine Learning 核心演算法
1)迴歸/分類樹
2)降維(PCA、MDS、tSNE等)
3)經典的前饋神經網路
4)Bagging ensembles方法(隨機森林、KN N迴歸整合)
5)Boostingensembles方法(梯度提升、XGBoost演算法)
6)引數調整或設計方案的優化演算法(遺傳演算法,量子啟發式演化演算法,模擬退火/simulated annealing,粒子群優化/ particle-swarm optimization)
7)拓撲資料分析工具,特別適用於小樣本量的無監督學習(持續同調/persistent homology,Morse-Smale聚類,Mapper ...)
8)深度學習架構(通用深度學習架構)
9)用於區域性建模的KNN方法(迴歸,分類)
10)基於梯度的優化方法/Gradient-based optimization methods
11)網路度量/Network metrics和演算法(中心度量,跳數,多樣性,熵,拉普拉斯運算元,疫情傳播/epidemic spread,譜聚類/spectral clustering)
12)深層架構中的卷積和池化層/pooling layers(特別適用於計算機視覺和影像分類模型)
13)分層聚類(與k均值聚類和拓撲資料分析工具相關)
14)貝葉斯網路(路徑挖掘/pathway mining)
15)複雜性和動態系統(與微分方程有關)
此外,部分領域還可能需要與自然語言處理、計算機視覺相關演算法。
2 Statistical Models 常用模型
1)廣義線性模型(是多數監督機器學習方法的基礎,如邏輯迴歸和Tweedie迴歸)
2)時間序列方法(ARIMA,SSA,基於機器學習的方法)
3)結構方程建模(針對潛變數之間關係進行建模)
4)因子分析(調查設計和驗證的探索型分析)
5)功效分析/試驗設計(特別是基於模擬的試驗設計,以避免分析過度)
6)非引數檢驗(MCMC)
7)K均值聚類
8)貝葉斯方法(樸素貝葉斯,貝葉斯模型平均/Bayesian model averaging,貝葉斯適應性試驗/Bayesian adaptive trials等)
9)懲罰性迴歸模型(彈性網路/Elastic Net,LASSO,LARS ...)以及對通用模型(SVM,XGBoost ...)加罰分,這對於預測變數多於觀測值的資料集很有用,在基因組學和社會科學研究中較為常用)
10)樣條模型/Spline-based models(MARS等):主要用於流程建模
11)馬爾可夫鏈和隨機過程(時間序列建模和預測建模的替代方法)
12)缺失資料插補方法及其假設(missForest,MICE ...)
13)生存分析/Survival analysis(主要特點是考慮了每個觀測出現某一結局的時間長短)
14)混合建模/Mixture modeling
15)統計推斷和組群測試(A/B測試以及用於營銷活動的更復雜的方法)
備 注 :1.本文原作者:Colleen M. Farrelly,源文URL: https://www.kdnuggets.com/2018/04/ key-algorithms-statistical-models-aspiring-data-scientists.html
2.由朝樂門負責翻譯與編輯。本文已獲 資料科學DataScience 授權轉發!
END
如果你對人工智慧與機器學習感興趣,請加交流群:群號:139482724 ;
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀:
80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系
相關文章
- 「資料科學家」必備的10種機器學習演算法資料科學機器學習演算法
- 資料科學家最常用的十種演算法資料科學演算法
- 一文詳解資料科學家的必備技能資料科學
- 競技世界首席資料科學家巴川:資料科學,未來或將成為民族核心競爭力資料科學
- 一文盤點5種聚類演算法,資料科學家必備!聚類演算法資料科學
- 一文詳解資料科學家的必備技能(附學習資源)資料科學
- 資料科學家面試如何準備?資料科學面試
- 美國大資料產業地圖和資料科學家必備工具-資料處理大資料產業地圖資料科學
- Facebook 科學家:別給演算法模型喂垃圾資料了…演算法模型
- 這一年來,資料科學家都用哪些演算法?資料科學演算法
- 資料科學家必須知道的20件事!–資訊圖資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- 【資料科學家】跨入商業分析、資料科學、挖掘領域必須哪些基本數學知識資料科學
- 資料科學必備基礎之線性迴歸資料科學
- 人的資料科學與機器資料科學資料科學
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- 掌握資料科學和機器學習數學基礎必備的7本書資料科學機器學習
- 資料科學家必知的五大深度學習框架!(附插圖)資料科學深度學習框架
- 資料科學家應該掌握的12種機器學習演算法資料科學機器學習演算法
- 資料科學家的命令列技巧資料科學命令列
- 公民資料科學家的侷限性資料科學
- 免費!資料科學及機器學習必備書單下載!資料科學機器學習
- 美國資深資料科學家暢聊:資料分析與北美電商資料科學
- 資料科學家需要的基礎技能資料科學
- 資料科學家的15項原則資料科學
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- 成為資料科學家應該知道的10種機器學習演算法資料科學機器學習演算法
- 【網路資料與科學】大資料時代:領航未來 大資料四大趨勢凸顯大資料
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 業界 | 資料科學家“恐怖故事”資料科學
- 資料科學家準則(轉載)資料科學
- 大資料專家級技能模型與學習指南大資料模型
- Spotify如何改進資料科學家的資料發現?資料科學
- 來年加薪必備,2020年攻破資料結構與演算法學習筆記-資料結構篇資料結構演算法筆記
- [譯] 資料科學領域十大必知機器學習演算法資料科學機器學習演算法
- 你與資料科學家只差這26條python技巧資料科學Python