未來資料科學家必備的【核心演算法】與【常用模型】

資料分析v發表於2018-05-10

未來資料科學家必備的
核心演算法與常用模型




機器學習和統計學是資料科學的兩個主要理論基礎。本文為您盤點資料科學家必備的核心機器學習演算法和常用統計模型。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


1Machine Learning 核心演算法

1)迴歸/分類樹

2)降維(PCA、MDS、tSNE等)

3)經典的前饋神經網路

4)Bagging ensembles方法(隨機森林、KN N迴歸整合)

5)Boostingensembles方法(梯度提升、XGBoost演算法)

6)引數調整或設計方案的優化演算法(遺傳演算法,量子啟發式演化演算法,模擬退火/simulated annealing,粒子群優化/ particle-swarm optimization)

7)拓撲資料分析工具,特別適用於小樣本量的無監督學習(持續同調/persistent homology,Morse-Smale聚類,Mapper ...)

8)深度學習架構(通用深度學習架構)

9)用於區域性建模的KNN方法(迴歸,分類)

10)基於梯度的優化方法/Gradient-based optimization methods

11)網路度量/Network metrics和演算法(中心度量,跳數,多樣性,熵,拉普拉斯運算元,疫情傳播/epidemic spread,譜聚類/spectral clustering)

12)深層架構中的卷積和池化層/pooling layers(特別適用於計算機視覺和影像分類模型)

13)分層聚類(與k均值聚類和拓撲資料分析工具相關)

14)貝葉斯網路(路徑挖掘/pathway mining)

15)複雜性和動態系統(與微分方程有關)

此外,部分領域還可能需要與自然語言處理、計算機視覺相關演算法。


640?wx_fmt=jpeg


2  Statistical Models 常用模型

1)廣義線性模型(是多數監督機器學習方法的基礎,如邏輯迴歸和Tweedie迴歸)

2)時間序列方法(ARIMA,SSA,基於機器學習的方法)

3)結構方程建模(針對潛變數之間關係進行建模)

4)因子分析(調查設計和驗證的探索型分析)

5)功效分析/試驗設計(特別是基於模擬的試驗設計,以避免分析過度)

6)非引數檢驗(MCMC)

7)K均值聚類

8)貝葉斯方法(樸素貝葉斯,貝葉斯模型平均/Bayesian model averaging,貝葉斯適應性試驗/Bayesian adaptive trials等)

9)懲罰性迴歸模型(彈性網路/Elastic Net,LASSO,LARS ...)以及對通用模型(SVM,XGBoost ...)加罰分,這對於預測變數多於觀測值的資料集很有用,在基因組學和社會科學研究中較為常用)

10)樣條模型/Spline-based models(MARS等):主要用於流程建模

11)馬爾可夫鏈和隨機過程(時間序列建模和預測建模的替代方法)

12)缺失資料插補方法及其假設(missForest,MICE ...)

13)生存分析/Survival analysis(主要特點是考慮了每個觀測出現某一結局的時間長短)

14)混合建模/Mixture modeling

15)統計推斷和組群測試(A/B測試以及用於營銷活動的更復雜的方法)


備  注 :1.本文原作者:Colleen M. Farrelly,源文URL: https://www.kdnuggets.com/2018/04/ key-algorithms-statistical-models-aspiring-data-scientists.html

2.由朝樂門負責翻譯與編輯。本文已獲 資料科學DataScience 授權轉發!

END

如果你對人工智慧與機器學習感興趣,請加交流群:群號:139482724 ;

版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。


關聯閱讀:

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化使用者運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於使用者畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於使用者行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系

從底層到應用,那些資料人的必備技能

讀懂使用者運營體系:使用者分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

相關文章