統計模型機器學習模型領域相關知識，指標概念及問題點積累

世有因果知因求果發表於2018-08-24

原文網址 : https://www.cnblogs.com/kidsitcn/p/9529001.html

模型機器學習指標

3 $\sigma$法則

在正態分佈中σ代表標準差,μ代表均值x=μ即為影像的對稱軸.三σ原則即為
數值分佈在（μ—σ,μ+σ)中的概率為0.6526
數值分佈在（μ—2σ,μ+2σ)中的概率為0.9544
數值分佈在（μ—3σ,μ+3σ)中的概率為0.9974

z-score

z分數（z-score），也叫標準分數（standard score）是一個數與平均數的差再除以標準差。

z-score可以回答以下問題:一個給定的觀測值距離平均數多少個標準差？在平均數之上的分數會得到一個正的標準分數，在平均數之下的分數會得到一個負的標準分數。 z分數是一種可以看出某分數在分佈中相對位置的方法。

總體的z-score: ,通常總體的均值和方差未知，我們可以使用樣本的均值和樣本方差來估計，得到樣本的z-score:

TSS=ESS+RSS

證明過程參考:https://stats.stackexchange.com/questions/248397/total-sum-of-squarestss-is-not-equal-ess-rss-when-the-model-doesnt-include

需要注意的是上式成立的條件是必須有一個非0的截距引數$\beta_0$，否則沒有代數殘差之和為0的結論，因此TSS就不等於RSS+ESS！！

https://blog.csdn.net/strwolf/article/details/72621692

其中的核心點是 $\sum (Y_i-\widehat{Y_i}) = 0$ 這是OLS這個模型求解最有問題時，令目標函式對係數的導數為0得到的必然結果，而不是任何假設！

nd-array/scipy sparse matrices/pandas dataframe

sparse matrice是scipy包定義的一種緊湊稀疏矩陣資料組織方式，特別適合於有大量0值的稀疏矩陣，因為會大大降低記憶體空間的佔用。

pandas dataframe基於numpy的nd-array

https://docs.scipy.org/doc/scipy/reference/sparse.html

ndarray axis

對於大於1維的numpy陣列，我們就定義了數軸的概念。一個2維陣列有兩個軸, axis 0是垂直方向，作為第一個軸向下延伸跨過相應的行，而axis 1則是水平方向，定義為跨過不同的列。很多數學操作都能夠指定在哪個軸上進行。比如，我們可以計算每一行的sum，這時我們sum要執行的是對column的計算，也就是axis 1:

>>> x = np.arange(12).reshape((3,4))

>>> x
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

>>> x.sum(axis=1)
array([ 6, 22, 38])

feature extraction:特徵提取

所有的機器學習演算法的輸入就是一堆行列構成的數字集合，那麼問題來了一般性問題的輸入可能並非數字，比如nlp自然語言處理，得到的語料都是文字，使用之前必須做特徵提取的工作，將自然語言編碼變換為對計算機有意義的資料。還有一種情況是降維時的特徵提取

structured learning/unstructured learning

https://pystruct.github.io/intro.html

結構化學習預測是經典監督式學習:分類和迴歸範例的一個泛化。分類演算法也好，迴歸演算法也好都可以更加抽象為以下本質的過程:

尋找到一個針對訓練資料集能夠最小化損失函式L值的函式F，所不同的是演算法函式$F$以及損失函式樣式$L$.比如，針對分類問題，目標為離散的標籤類別，而loss通常就是0-1 loss，即:計數分類錯誤總數。而在迴歸問題中，目標是實數值，loss通常用MSE均方差.

機器學習的本質實際上可以簡化為尋找一個函式F，使得輸入data到F能夠對映為對應的輸出:

而在結構化學習範疇中，target和loss都或多或少可能是任意的。這意味著我們的目標不再是預測一個分類標籤或者一個數值，而可能是更加複雜的物件：比如一個序列或者一副圖片。

https://blog.csdn.net/qq_32690999/article/details/78840312

http://yoferzhang.com/post/20170326ML01Introduction/

結構化學習統一框架:

找到一個函式F->評估F(x,y)物件x和y有多麼匹配。

imbalanced dataset

http://contrib.scikit-learn.org/imbalanced-learn/stable/introduction.html

problem setting:

機器學習實際問題解決時，第一步我們需要對問題進行分類：比如是監督式學習還是無監督學習，分類還是迴歸。。這個流程稱為problem setting

sklearn estimator

在sklearn中，一個estimator是一個python的object，這個物件實現了$fit(X,y)$方法以及$predict(T)$方法，分別用於訓練集的學習和預測集的預測。例如$sklearn.svm.SVC$類就實現了支援向量學習機分類器演算法。

sklearn通用流程:

1d/2d array

1d array就是一個numpy一維陣列，其.shape值為1，是一個向量

2d array就是一個numpy的二維陣列，其.shape屬性的值為2，通常代表一個矩陣

array-like

在sklearn的estimator或者函式的輸入資料一般是array-like的資料。只要numpy.asarray呼叫後能夠產生一個適當shape的array（通常是1維或者2維的）的資料，都是array-like的資料。比如:

numpy array
list of numbers
list of length-k lists
pandas.DataFrame
pandas.Series

注意不是array-like的有: sparse matrix, an iterator, a generator

model persistence

模型訓練完畢後，我們可能希望儲存訓練的結果，下次可以直接使用即可。可以使用的模組有:python內建的pickle或者第三方庫joblib

sklearn estimator

estimator是任何能夠從資料中學習pattern的物件，他可以是一個分類器，迴歸演算法，或者聚類，或者是一個從原始資料中提取有用特徵的transformer

所有的estimator都有一個fit方法，該方法通常接收一個2d陣列。當estimator完成fit後，相應引數的估計值就從資料中學習出來。所有估計的引數都作為estimator以 _ 結尾的屬性存在，比如$estimator.estimated_param_$

維數詛咒(The curse of dimensionality)

https://blog.csdn.net/u010182633/article/details/45895493

要訓練一個泛化能力高的分類器，特徵的維數非常重要，太高的維數非常容易導致過擬合，結果就是雖然訓練結果非常好，但是未見過的資料預測效果極差。要訓練得到更好的效果，所需要的資料樣本呈現指數級別的提高。

jacobian矩陣和hessian矩陣

http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/

jacobian矩陣和hessian矩陣主要用於優化演算法中，提供梯度(導數)的數值矩陣。

L2 Norm/L1 Norm/Elastic Net

優化目標函式時我們往往會增加一個懲罰項以免模型過於複雜出現過擬合。常見的懲罰項有

ensemble演算法

整合演算法(ensemble)的目標是將多個使用給定學習演算法學習出來的base estimator的預測輸出結合起來，總體決策用於提高模型泛化能力及健壯性。

有兩種思路:

averaging(bagging)

首先獨立地構建多個estimator,然後將他們的輸出預測值做平均，這樣總的來說，比一個單獨的estimator效果要更好。原因是降低了variance of a base estimator,比如:bagging method,forest of randomized trees.

boosting

多個base estimator順序構建，後建的estimator用於減少最終模型的bias.比如AdaBoost, Gradient Tree Boosting,XGBoost

Bagging methods come in many flavours but mostly differ from each other by the way they draw random subsets of
the training set:
• When random subsets of the dataset are drawn as random subsets of the samples, then this algorithm is known
as Pasting [B1999].
• When samples are drawn with replacement, then the method is known as Bagging [B1996].
• When random subsets of the dataset are drawn as random subsets of the features, then the method is known as
Random Subspaces [H1998].
• Finally, when base estimators are built on subsets of both samples and features, then the method is known as
Random Patches [LG2012].

voting:

同一個問題使用不同型別的模型分別預測，得到的結果做voting得到最終的結果。。

變數相關性的卡方檢驗 vs 線性相關檢驗的相關係數

在搭建模型時，自變數資料不能是線性相關的，以及自變數和因變數是必須緊密相關的這兩點都非常重要。如果模型中的輸入變數本身具有線性相關性，那麼會導致"多重共線性"問題；如果模型中某個輸入的特徵和因變數根本不相關(獨立的)(無論是線性的還是非線性的)，那麼我們就不應該在建模時引入該變數，因為這將突然增加模型複雜度。同時，如果輸入自變數太多，會很容易導致模型過擬合，因此有必要降維處理，這時我們就需要將輸入變數和因變數之間的相關程度來做一下排序。

因此，如何檢驗線性相關性以及獨立性就非常重要了。一般來說，線性相關性的檢測可以通過相關係數來檢查，而獨立性可以通過卡方檢驗來完成。

其中A為實際值，也就是第一個四格表裡的4個資料，T為理論值，也就是理論值四格表裡的4個資料。

x2用於衡量實際值與理論值的差異程度（也就是卡方檢驗的核心思想）,有了卡方值查表看看是否滿足95%置信

下面是一個卡方檢驗的連結:

https://blog.csdn.net/snowdroptulip/article/details/78770088

嵌入式系統中使用的機器學習C庫 libsvm

https://www.csie.ntu.edu.tw/~cjlin/libsvm/

機器學習知識積累
2018-07-22
機器學習
機器學習數學知識積累之數理統計
2018-07-06
機器學習
LR模型相關知識點
2020-12-27
模型
標準IO和系統IO的相關知識積累
2024-05-13
機器學習數學知識積累總結
2019-02-15
機器學習
機器學習數學知識積累之概率論
2018-06-25
機器學習
機器學習數學知識積累之高等數學微積分
2018-07-19
機器學習
大模型相關問題
2024-08-17
大模型
機器學習之step by step實戰及知識積累筆記
2018-06-13
機器學習筆記
ubuntu點選知識積累
2024-09-19
Ubuntu
【機器學習】--模型評估指標之混淆矩陣，ROC曲線和AUC面積
2018-03-27
機器學習模型指標矩陣
JAVA學習筆記及知識積累
2018-09-28
Java筆記
【機器學習】乾貨丨機器學習知識點；機器學習模型的“可解釋性”到底有多重要？
2018-03-14
機器學習模型
機器學習相關入門零碎知識
2024-06-22
機器學習
GreatSQL統計資訊相關知識點
2024-04-24
SQL
如何系統的學習伺服器相關知識？
2022-07-20
伺服器
關於盒模型相關的問題
2019-02-23
模型
機器學習模型
2024-03-30
機器學習模型
知識積累，韓語中的俗語學習
2018-10-12
計算機視覺、機器學習相關領域論文和原始碼大集合
2020-04-06
計算機視覺機器學習原始碼
日常知識積累
2019-02-16
Python 機器學習 HMM模型三種經典問題
2024-03-19
Python機器學習HMM模型
ISWC 2018概覽：知識圖譜與機器學習
2018-10-26
機器學習
機器學習知識點整理（三）
2020-12-22
機器學習
領域綜述 | 知識圖譜概論（一）
2019-03-22
MySQL知識-積累篇
2020-10-04
MySql
常用前端知識積累
2020-12-17
前端
redis相關知識點
2022-06-20
Redis
Git相關知識點
2021-09-09
Git
JVM相關知識整理和學習
2018-06-14
JVM
GC相關知識簡單學習
2020-11-29
GC
程式設計的知識點（不斷積累，終身程式設計）
2020-07-16
程式設計
15大領域、127個任務，這裡有最全的機器學習SOTA模型
2019-09-27
機器學習模型
機器學習及深度學習的知識點及面試題總結
2018-06-11
機器學習深度學習面試題
odoo學習5-模型欄位知識
2024-07-08
Odoo模型
如何管理機器學習模型
2019-01-12
機器學習模型
欺騙機器學習模型
2018-04-06
機器學習模型
機器學習之支援向量機（線性模型）的最佳化問題
2020-07-04
機器學習模型

統計模型機器學習模型領域相關知識，指標概念及問題點積累

3 $\sigma$法則

z-score

TSS=ESS+RSS

nd-array/scipy sparse matrices/pandas dataframe

ndarray axis

feature extraction:特徵提取

structured learning/unstructured learning

imbalanced dataset

problem setting:

sklearn estimator

sklearn通用流程:

1d/2d array

array-like

model persistence

sklearn estimator

維數詛咒(The curse of dimensionality)

jacobian矩陣和hessian矩陣

L2 Norm/L1 Norm/Elastic Net

ensemble演算法

變數相關性的卡方檢驗 vs 線性相關檢驗的相關係數

嵌入式系統中使用的機器學習C庫 libsvm

相關文章