馬氏距離

breezezz發表於2021-01-28

原文網址 : https://www.cnblogs.com/breezezz/p/14338611.html

協方差與協方差矩陣

協方差計算的是兩個隨機變數之間線性相關程度。變數之間越相關，協方差越大。變數之間越無關，協方差越小。隨機變數\(X,Y\)之間的協方差定義為

\[cov(X,Y) = E[(X-EX)(Y-EY)] \]

顯然，計算同一個變數的協方差時等同於計算其方差。

通過樣本來統計其協方差時，假設單個樣本為\(m\)維列向量\(x_i\)，將\(n\)個樣本組合為一個\(m \times n\)的矩陣\(X = (x_1,x_2,\cdots,x_n)\) 。\(X\)的資料可示例如下

\[\begin{bmatrix} x_{11}& x_{12}& \cdots & x_{1n}\\ x_{21}& x_{22}& \cdots & x_{2n}\\ \vdots &\vdots &&\vdots\\ x_{m1} &x_{m2}& \cdots & x_{mn}\end{bmatrix} \]

注意這裡求取的協方差是關於不同維度之間的，也就是一個維度（屬性）可看作一個隨機變數。比如維度1與維度2之間樣本協方差的無偏估計可計算如下

\[cov(X1,X2) = \frac 1 {n-1} \sum_{i=1}^n (x_{1i}-\bar x_1)(x_{2i}-\bar x_1) \]

兩個變數時，它們的相關程度可以方便的用協方差表示。但在機器學習任務中，常常會處理具有多個屬性的問題。每個屬性都可看作一個隨機變數，如果要考慮這些變數兩兩之間的關係，再挨個列出協方差太過麻煩。因此使用矩陣的形式將其組合起來，這就是協方差矩陣。

\[\Sigma = \begin{bmatrix} cov(X1,X1) & \cdots &cov(X1,Xm)\\ \vdots & \ddots &\vdots\\ cov(Xm,X1) & \cdots & cov(Xm,Xm)\\ \end{bmatrix} \]

對於\(m\)維資料的樣本集合，相當於有\(m\)個隨機變數來描述其屬性特點。計算這\(m\)維資料兩兩之間的協方差便得到了一個\(m\times m\)的協方差矩陣。因此，協方差的具體含義可以理解為計算一組資料各個維度之間的相關性。

協方差矩陣是實對稱矩陣，實對稱矩陣有一個重要性質是可以正交對角化，即存在一個正交矩陣U，對\(X\)作一個正交變換\(Y=U^TX\)後，使得協方差矩陣\(\Sigma\)滿足

\[\Lambda = U^T\Sigma U \]

這意味著，只要對一組樣本資料作一個正交變換，就能使得它變成維度之間兩兩無關的資料。這使得它在很多工程中成為了重要的理論基礎。在下文馬氏距離的推導中，就先根據這個原理講資料變換到一個維度無關的線性空間。

同時，協方差矩陣還是半正定矩陣，因此\(\Sigma\)還可做\(Cholesky\)分解，即

\[\Sigma = L \cdot L^T \]

其中，\(L\) 是下三角矩陣，\(L^T\) 是它的轉置。

馬氏距離

假設單個樣本為m維列向量\(x_i\)，將\(n\)個樣本組合為一個\(m \times n\)的矩陣\(X = (x_1,x_2,\cdots,x_n)\) 。\(X\)的資料可示例如下

\[\begin{bmatrix} x_{11}& x_{12}& \cdots & x_{1n}\\ x_{21}& x_{22}& \cdots & x_{2n}\\ \vdots &\vdots &&\vdots\\ x_{m1} &x_{m2}& \cdots & x_{mn} \end{bmatrix} \]

對於\(X\)第\(i\)個維度的樣本均值可表示為\(\mu ^{(x)}_i\) 。\(\mu^{(x)}\) 是\(X\)的樣本均值向量

\[\mu^{(x)} = (\mu_1^{(x)},\mu_2^{(x)},\cdots,\mu_m^{(x)})^T \]

則其協方差矩陣可表示為

\[\begin{aligned} \Sigma_X =& E[(X-\mu^{(x)})(X-\mu^{(x)})^T]\\ =& \frac 1 {n-1} \sum_{i=1}^n (x_i -\mu^{(x)}) (x_i-\mu^{(x)})^T \end{aligned} \]

對一組資料，可通過主成分分析等方法，確定其特徵向量，按照特徵向量進行座標變換就能得到一個新座標系下的樣本，雖還是同一組樣本，但這組樣本的各個維度在變換後的座標系下相互獨立。用\(F\)來表示\(X\)旋轉後的向量組成的矩陣（它們是相同的，不過座標系不同），\(U\)表示變換矩陣。於是有

\[F=(f_1,f_2,\cdots , f_m)^T=U^TX \]

旋轉後的均值為

\[\mu^{(f)} =(\mu_1^{(f)},\mu_2^{(f)},\cdots,\mu_m^{(f)})^T=U^T\mu^{(x)} \]

得到

\[F-\mu^{(f)}=U^T(X-\mu^{(x)}) \]

由於\(F\)經過正交變換後維度無關，因此其協方差矩陣是一個由其方差組成的對角矩陣

\[\begin{aligned} E[(F-\mu^{(f)}) (F-\mu^{(f)})^T]=& \begin{bmatrix} \lambda_1& \\ &\lambda_2&\\ && \ddots&\\ &&&& \lambda_m\\ \end{bmatrix}\\ =&E\;\left [ U^T(X-\mu^{(x)})(X-\mu^{(x)})^TU \right] \\ =& U^T \Sigma_X U \end{aligned} \]

經過變換後的\(F\)是維度無關的，此時它的馬氏距離相當於歐式距離。不過在求取歐式距離時，其變數的方差也會影響結果，所以要求標準化後的歐式距離。

\[\begin{aligned} D_F=& \frac {(f_1-\mu^{(f)}_1)} {\lambda_1} +\frac {(f_2-\mu^{(f)}_2)} { \lambda_2} +\cdots +\frac {(f_m-\mu^{(f)}_m)} { \lambda_m} \\ =& (f_1-\mu^{(f)}_1,f_2-\mu^{(f)}_2,\cdots,(f_m-\mu^{(f)}_m) \begin{bmatrix} \frac 1 {\lambda_1}&\\ &\frac 1 {\lambda_2}&\\ && \ddots&\\ &&&\frac 1 {\lambda_m}\\ \end{bmatrix} \begin{pmatrix} f_1-\mu^{(f)}_1\\ f_2-\mu^{(f)}_2\\ \cdots\\ (f_m-\mu^{(f)}_m \end{pmatrix}\\ =&(F-\mu^{(f)})^T(U^T\Sigma_XU)^{-1}(F-\mu^{(f)})\\ =&(X-\mu^{(x)})^TU(U^T\Sigma_X^{-1}U)U^T(X-\mu^{(x)})\\ =&(X-\mu^{(x)})\Sigma_X^{-1}(X-\mu^{(x)})\\ \end{aligned} \]

通過推導過程可以發現，馬氏距離計算中用到協方差矩陣的逆與計算歐氏距離中的標準化有某種關係。事實上馬氏距離確實是尺度無關的一種度量，它通過對原資料進行線性變換，得到維度無關的資料之後，再計算其標準化後（去除方差影響）的歐式距離。進行線性變換的目的是去除維度之間相關性的影響。

馬氏距離與歐氏距離
2018-06-18
最小距離分類器，互動式選取影像樣本分類資料，進行最小距離分類（實現歐式距離，馬氏距離，計程距離）
2021-01-03
求矩陣中向量兩兩間的歐氏距離(python實現)
2018-09-08
矩陣Python
【Python】距離
2024-08-17
Python
JavaScript 元素距離視窗頂部的距離
2019-06-20
JavaScript
編輯距離及編輯距離演算法
2019-02-16
演算法
曼哈頓距離與切比雪夫距離
2024-07-27
JavaScript獲取元素距離文件頂部的距離
2018-04-18
JavaScript
Laravel 距離排序
2019-08-06
Laravel排序
unit原子距離
2024-11-03
餘弦距離
2020-12-23
【DP】編輯距離
2024-04-30
距離度量學習
2019-07-02
曼哈頓距離與切比雪夫距離的互化
2024-04-05
milvus 使用 l2 歐式距離計算向量的距離，計算出來的距離的最大值是多少？
2023-04-26
距離容差來源
2020-10-22
461. 漢明距離
2020-09-30
漢明距離（Hamming distance）
2024-08-19
編輯距離演算法
2024-03-29
演算法
LeetCode 461. 漢明距離
2020-11-11
LeetCode
LeetCode72編輯距離
2020-10-19
LeetCode
LeetCode 834 樹中距離之和
2020-10-06
LeetCode
經緯度距離換算
2019-05-07
線性dp：編輯距離
2024-08-23
距離-有這麼多類
2024-08-13
902.最短編輯距離
2024-08-03
45.LeetCode461. 漢明距離
2018-10-14
LeetCode
動態規劃-編輯距離
2018-06-26
動態規劃
【scipy 基礎】--正交距離迴歸
2023-11-16
opencv距離變換函式distanceTransform
2024-04-30
OpenCV函式ORM
優劣解距離法Topsis模型
2019-09-07
模型
社會敘事與距離感
2020-03-05
leetcode-834. 樹中距離之和
2020-10-07
LeetCode
PyTorch 實戰：計算 Wasserstein 距離
2019-03-19
PyTorch
Java LeetCode 72. 編輯距離
2020-12-20
JavaLeetCode
ggplot2中繪圖設定x軸、y軸名稱距離框線的距離
2024-03-08
繪圖
你離ELK只有一句docker-compose的距離
2018-03-03
Docker
原生JS獲取DOM 節點到瀏覽器頂部的距離或者左側的距離
2019-01-03
JS瀏覽器

馬氏距離

協方差與協方差矩陣

馬氏距離

相關文章