常用的機器學習&資料探勘知識(點)

一隻鳥的天空發表於2014-09-15

常用的機器學習&資料探勘知識(點）

宣告：想做機器學習&資料探勘的學弟學妹，可以看看，轉載請說明出處...

常用的資料探勘&機器學習知識(點)

Basis(基礎)：

MSE(MeanSquare Error 均方誤差)，LMS(Least MeanSquare 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(Maximum LikelihoodEstimation最大似然估計)，QP(QuadraticProgramming 二次規劃)， CP(ConditionalProbability條件概率)，JP(Joint Probability 聯合概率)，MP(Marginal Probability邊緣概率)，Bayesian Formula(貝葉斯公式)，L1 /L2Regularization(L1/L2正則，以及更多的，現在比較火的L2.5正則等)，GD(Gradient Descent 梯度下降)，SGD(Stochastic GradientDescent 隨機梯度下降)，Eigenvalue(特徵值)，Eigenvector(特徵向量)，QR-decomposition(QR分解)，Quantile (分位數)，Covariance(協方差矩陣)。

Common Distribution(常見分佈)：

Discrete Distribution(離散型分佈)：Bernoulli Distribution/Binomial(貝努利分步/二項分佈)，Negative BinomialDistribution(負二項分佈)，Multinomial Distribution(多式分佈)，Geometric Distribution(幾何分佈)，Hypergeometric Distribution(超幾何分佈)，Poisson Distribution (泊松分佈)

ContinuousDistribution (連續型分佈)：Uniform Distribution(均勻分佈)，Normal Distribution/GaussianDistribution(正態分佈/高斯分佈)，Exponential Distribution(指數分佈)，Lognormal Distribution(對數正態分佈)，Gamma Distribution(Gamma分佈)，Beta Distribution(Beta分佈)，Dirichlet Distribution(狄利克雷分佈)，Rayleigh Distribution(瑞利分佈)，Cauchy Distribution(柯西分佈)，Weibull Distribution (韋伯分佈)

Three Sampling Distribution(三大抽樣分佈)：Chi-square Distribution(卡方分佈)，t-distribution(t-distribution)，F-distribution(F-分佈)

Data Pre-processing(資料預處理)：

MissingValue Imputation(缺失值填充)，Discretization(離散化)，Mapping(對映)，Normalization(歸一化/標準化)。

Sampling(取樣)：

SimpleRandom Sampling(簡單隨機取樣)，Offline Sampling(離線等可能K取樣)，Online Sampling(線上等可能K取樣)，Ratio-based Sampling(等比例隨機取樣)，Acceptance-rejection Sampling(接受-拒絕取樣)，Importance Sampling(重要性取樣)，MCMC(Markov Chain MonteCarlo 馬爾科夫蒙特卡羅取樣演算法：Metropolis-Hasting& Gibbs)。

Clustering(聚類)：

K-Means，K-Mediods，二分K-Means，FK-Means，Canopy，Spectral-KMeans(譜聚類)，GMM-EM(混合高斯模型-期望最大化演算法解決)，K-Pototypes，CLARANS(基於劃分)，BIRCH(基於層次)，CURE(基於層次)，DBSCAN(基於密度)，CLIQUE(基於密度和基於網格)，2014年Science上的密度聚類演算法等

Clustering EffectivenessEvaluation(聚類效果評估)：

Purity(純度)，RI(Rand Index，芮氏指標)，ARI(Adjusted Rand Index，調整的芮氏指標)，NMI(NormalizedMutual Information，規範化互資訊)，F-meaure(F測量)等。

Classification&Regression(分類&迴歸)：

LR(LinearRegression 線性迴歸)，LR(Logistic Regression邏輯迴歸)，SR(SoftmaxRegression 多分類邏輯迴歸)，GLM(Generalized LinearModel 廣義線性模型)，RR(Ridge Regression 嶺迴歸/L2正則最小二乘迴歸)，LASSO(Least AbsoluteShrinkage and Selectionator Operator L1正則最小二乘迴歸)， RF(隨機森林)，DT(Decision Tree決策樹)，GBDT(Gradient Boosting Decision Tree 梯度下降決策樹)，CART(Classification AndRegression Tree 分類迴歸樹)，KNN(K-Nearest Neighbor K近鄰)，SVM(Support Vector Machine，支援向量機，包括SVC（分類）&SVR（迴歸）)，KF(Kernel Function 核函式Polynomial KernelFunction 多項式核函式、Guassian Kernel Function 高斯核函式/Radial Basis Function RBF徑向基函式、String Kernel Function 字串核函式)、 NB(Naive Bayes 樸素貝葉斯)，BN(BayesianNetwork/Bayesian Belief Network/Belief Network 貝葉斯網路/貝葉斯信度網路/信念網路)，LDA(Linear DiscriminantAnalysis/Fisher Linear Discriminant 線性判別分析/Fisher線性判別)，EL(Ensemble Learning整合學習Boosting，Bagging，Stacking)，AdaBoost(AdaptiveBoosting 自適應增強)，MEM(Maximum Entropy Model最大熵模型)

Classification EffectivenessEvaluation(分類效果評估)：

ConfusionMatrix(混淆矩陣)，Precision(精確度)，Recall(召回率)，Accuracy(準確率)，F-score(F得分)，ROC Curve(ROC曲線)，AUC(AUC面積)，Lift Curve(Lift曲線) ，KS Curve(KS曲線)。

PGM(ProbabilisticGraphical Models概率圖模型)：

BN(BayesianNetwork/Bayesian Belief Network/ Belief Network 貝葉斯網路/貝葉斯信度網路/信念網路)，MC(Markov Chain 馬爾科夫鏈)，HMM(Hidden MarkovModel 馬爾科夫模型)，MEMM(Maximum EntropyMarkov Model 最大熵馬爾科夫模型)，CRF(Conditional RandomField 條件隨機場)，MRF(Markov RandomField 馬爾科夫隨機場)。

NN(Neural Network神經網路)：

ANN(ArtificialNeural Network 人工神經網路)，BP(Error Back Propagation 誤差反向傳播)，HN（Hopfield Network），
RNN(Recurrent Neural Network，迴圈神經網路），SRN（Simple Recurrent Network，簡單的迴圈神經網路），ESN（Echo State Network，回聲狀態網路），LSTM（Long Short Term Memory 長短記憶神經網路），CW-RNN（Clockwork

Recurrent Neural Network，時鐘驅動迴圈神經網路，2014ICML）等。

Deep Learning(深度學習)：

Auto-encoder(自動編碼器)，SAE(Stacked Auto-encoders堆疊自動編碼器：Sparse Auto-encoders稀疏自動編碼器、Denoising Auto-encoders去噪自動編碼器、ContractiveAuto-encoders 收縮自動編碼器)，RBM(Restricted BoltzmannMachine 受限玻爾茲曼機)，DBN(Deep BeliefNetwork 深度信念網路)，CNN(Convolutional NeuralNetwork 卷積神經網路)，Word2Vec(詞向量學習模型)。

Dimensionality Reduction(降維)：

LDA(LinearDiscriminant Analysis/Fisher Linear Discriminant 線性判別分析/Fish線性判別)，PCA(Principal ComponentAnalysis 主成分分析)，ICA(Independent ComponentAnalysis 獨立成分分析)，SVD(Singular ValueDecomposition 奇異值分解)，FA(Factor Analysis 因子分析法)。

Text Mining(文字挖掘)：

VSM(Vector SpaceModel向量空間模型)，Word2Vec(詞向量學習模型)，TF(Term Frequency詞頻)，TF-IDF(TermFrequency-Inverse Document Frequency 詞頻-逆向文件頻率)，MI(Mutual Information 互資訊)，ECE(Expected CrossEntropy 期望交叉熵)，QEMI(二次資訊熵)，IG(Information Gain 資訊增益)，IGR(InformationGain Ratio 資訊增益率)，Gini(基尼係數)，x2 Statistic(x2統計量)，TEW(Text EvidenceWeight文字證據權)，OR(OddsRatio 優勢率)，N-Gram Model，LSA(LatentSemantic Analysis 潛在語義分析)，PLSA(ProbabilisticLatent Semantic Analysis 基於概率的潛在語義分析)，LDA(Latent DirichletAllocation 潛在狄利克雷模型)，SLM(StatisticalLanguage Model，統計語言模型)，NPLM(NeuralProbabilistic Language Model，神經概率語言模型)，CBOW(Continuous Bag of Words Model，連續詞袋模型)，Skip-gram(Skip-gramModel)等。

Association Mining(關聯挖掘)：

Apriori，FP-growth(FrequencyPattern Tree Growth 頻繁模式樹生長演算法)，AprioriAll，Spade。

Recommendation Engine(推薦引擎)：

DBR(Demographic-basedRecommendation 基於人口統計學的推薦)，CBR(Context-based Recommendation 基於內容的推薦)，CF(Collaborative Filtering協同過濾)，UCF(User-based CollaborativeFiltering Recommendation 基於使用者的協同過濾推薦)，ICF(Item-based CollaborativeFiltering Recommendation 基於專案的協同過濾推薦)。

SimilarityMeasure&Distance Measure(相似性與距離度量)：

EuclideanDistance(歐式距離)，Manhattan Distance(曼哈頓距離)，Chebyshev Distance(切比雪夫距離)，Minkowski Distance(閔可夫斯基距離)，Standardized EuclideanDistance(標準化歐氏距離)，Mahalanobis Distance(馬氏距離)，Cos(Cosine 餘弦)，Hamming Distance/EditDistance(漢明距離/編輯距離)，Jaccard Distance(傑卡德距離)，Correlation CoefficientDistance(相關係數距離)，Information Entropy(資訊熵)，KL(Kullback-LeiblerDivergence KL散度/Relative Entropy 相對熵)。

Optimization(最優化)：

Non-constrained Optimization(無約束優化)：Cyclic Variable Methods(變數輪換法)，Pattern Search Methods(模式搜尋法)，Variable Simplex Methods(可變單純形法)，Gradient Descent Methods(梯度下降法)，Newton Methods(牛頓法)，Quasi-Newton Methods(擬牛頓法)，Conjugate GradientMethods(共軛梯度法)。

ConstrainedOptimization(有約束優化)：Approximation ProgrammingMethods(近似規劃法)，Feasible DirectionMethods(可行方向法)，Penalty Function Methods(罰函式法)，Multiplier Methods(乘子法)。

HeuristicAlgorithm(啟發式演算法)，SA(Simulated Annealing，模擬退火演算法)，GA(genetic algorithm遺傳演算法)

Feature Selection(特徵選擇)：

MutualInformation(互資訊)，Document Frequence(文件頻率)，Information Gain(資訊增益)，Chi-squared Test(卡方檢驗)，Gini(基尼係數)。

Outlier Detection(異常點檢測)：

Statistic-based(基於統計)，Distance-based(基於距離)，Density-based(基於密度)，Clustering-based(基於聚類)。

Learning to Rank(基於學習的排序)：

Pointwise：McRank；

Pairwise：RankingSVM，RankNet，Frank，RankBoost；

Listwise：AdaRank，SoftRank，LamdaMART；

Tool(工具)：

MPI，Hadoop生態圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…

以及一些具體的業務場景與case等。

後面有機會將針對這些進行知識(面)的總結，有錯誤請指正...

轉載請說明出處..........

資料探勘比賽預備知識
2020-11-03
【大資料】你務必要搞清楚的十大資料探勘知識點
2018-05-02
大資料
vue常用的知識點
2018-10-29
Vue
《資料探勘：實用機器學習技術》——資料探勘、機器學習一舉兩得
2011-06-09
機器學習
機器學習、資料探勘及其他
2011-08-19
機器學習
機器學習知識點整理（三）
2020-12-22
機器學習
webpack常用知識點
2019-10-16
Web
SVN - 常用知識點
2020-10-12
資料探勘——認識資料
2014-08-28
Flow 常用知識點整理
2019-03-31
Angular常用知識點梳理
2017-12-04
Angular
五個UICollectionView常用的知識點
2019-02-10
UIView
機器學習和資料探勘的推薦書單
2015-10-26
機器學習
常用資料探勘演算法
2024-10-13
演算法
資料探勘和知識發現的技術、方法及應用
2007-05-08
資料探勘中常用的取樣方法
2007-11-17
Koa 框架常用知識點整理
2019-03-29
框架
RabbitMQ 常用知識點總結
2021-07-12
MQ
Python常用知識點一二
2017-09-16
Python
docker常用知識點總結
2024-11-06
Docker
mysql 常用知識點總結
2024-09-16
MySql
PLSQL一些常用的知識點
2023-05-13
SQL
[機器學習&資料探勘]SVM---核函式
2015-07-22
機器學習函式
.NET資料探勘與機器學習開源框架
2024-10-20
機器學習框架
大資料學習，涉及的知識點
2019-05-29
大資料
機器學習vs深度學習及其知識點
2017-08-20
機器學習深度學習
ES6常用知識點概述
2017-10-06
如何向外行解釋機器學習和資料探勘
2013-10-29
機器學習
ShifuML/shifu: Hadoop上的機器學習和資料探勘框架
2022-01-26
Hadoop機器學習框架
Flutter 資料庫sqflite使用知識點
2019-12-21
Flutter資料庫
資料庫相關知識點提要
2023-01-28
資料庫
java Web知識點--資料庫（3）
2017-04-07
JavaWeb資料庫
機器學習知識點(十)馬爾可夫鏈
2017-03-03
機器學習馬爾可夫
MySQL 常用易混淆知識點總結
2018-06-05
MySql
iOS 需要使用卻不常用的知識點
2018-12-19
iOS
jQuery常用的一些知識點總結
2018-10-28
jQuery
面試開發常用的 JavaScript 知識點總結
2016-08-07
面試JavaScript
資料探勘,人工智慧,機器學習會議總結
2019-10-03
人工智慧機器學習

常用的機器學習&資料探勘知識(點)

相關文章