距離度量學習

ArlenLee發表於2019-07-02

原文網址 : https://www.cnblogs.com/algori/p/11122850.html

為什麼學習距離度量？

在機器學習中，對高維資料進行降維的主要目的是希望找到一個合適的低維空間，在此空間中進行學習能比原始空間效能更好．事實上，每個空間對應了在樣本屬性上定義的一個距離度量，而尋找合適的空間，實質上就是在尋找一個合適的距離度量．那麼，為何不直接嘗試“ 學習” 出一個合適的距離度量呢？這就是度量學習(metric learning)的基本動機．在資料分類或者聚類中我們應該讓相似資料的距離儘可能地接近，不相似的距離儘可能地疏遠，這就是距離度量學習的目的.

擴充套件

度量學習的目的是在樣本上學習距離度量函式. 距離度量函式必須服從4個公理非負性，對稱性，次可加性及不可分與同一性.在實踐中，度量學習演算法一般忽略了不可分與同一性並學習偽度量.

首先，瞭解偽度量空間.偽度量空間是度量空間的推廣，一個偽度量空間\((X,d)\)是有非負實值函式組成的集合\(X\)，若\(d:X \times X\mathbb{\rightarrow R \geq}0\)，對於\(\forall x,y,z \in X\)滿足條件則可稱為偽度量.

\[{d(x,x) = 0 }\]
\[{d(x,y) = d(y,x) }\]

與度量空間不同，偽度量空間中的點可能不滿足不可分與同一性，也就是說如果\(d(x,y) = 0\)可能\(x \neq y\).

假設有集合\(\mathcal{S} = \left( x_{i}|x_{i} \subseteq \mathbb{R}^{n} \right)\)，給出了成對相似矩陣的定義，它是兩兩相似點的集合

\(S:\quad\left( x_{i},x_{j} \right) \in \mathcal{S}\quad\ (x_{i}\ 與\ x_{j}相似)\)

同理給出成對不相似矩陣\(D\)的定義，它是兩兩不相似點的集合

\(D:\left( x_{i},x_{j} \right) \in S\quad\ (x_{i}\ 與\ x_{j}不相似)\)

我們通過學習距離度量矩陣來解決相似點之間的距離度量\(d(x,y)\)

\(d(x,y) = d_{A}(x,y) = \| x - y\|_{A} = \sqrt{(x - y)^{T}A(x - y)}\)

為了確保公式滿足度量距離函式的非負性和次可加性，我們要求\(A\)是正半正定的矩陣，即\(A \succcurlyeq 0\).如果\(A = I_{0}\)，那麼就是採用歐氏距離度量.

提出優化問題

定義成對相似點\(\left( x_{i},x_{j} \right)\)之間的最小平方距離\(\ {\min{}_{A}}\sum_{\left( x_{i},x_{j} \right) \in \mathcal{S}}^{}\left\| x_{i} - x_{j} \right\|_{A}^{2}\).如果對\(A\)不加以限制，那麼當\(A = 0\)時，雖然可以讓相似點\(d_{A}(x_{i},x_{j}),(x_{i},x_{j} \in S)\)等於零，但是這樣做不相似的成對點\(d_{A}(x_{i},x_{j}),(x_{i},x_{j} \in D)\)也將變為0，所以我們應該新增約束條件防止該問題發生.因此得出優化問題如下

\[\begin{array} { c l } { \min _ { A } } & { \sum _ { \left( x _ { i } , x _ { j } \right) \in \mathcal { S } } \left\| x _ { i } - x _ { j } \right\| _ { A } ^ { 2 } } \\ { \text { s.t. } } & { \sum _ { \left( x _ { i } , x _ { j } \right) \in \mathcal { D } } \left\| x _ { i } - x _ { j } \right\| _ { A } \geq 1} \\ { } & { A \succeq 0 } \end{array}\]

公式\(\sum_{\left( x_{i},x_{j} \right) \in \mathcal{D}}^{}\left\| x_{i} - x_{j} \right\|_{A} \geq 1\)中，右邊的常數1的更改成任意常數\(c\)，若將1改為常數\(c\)只會讓學習的度量矩陣從\(A\)線性變換到\(c^{2}A\).此外，該優化問題是求解半正定矩陣\(A\)，兩個約束為凸約束.因此，對於此類凸優化問題，我們能夠使用區域性最小來求解它.

計算\(A\)的對角元素

我們可以使用Newton-Raphson（牛頓拉夫森）來推導學習半定陣\(A\)對角線的演算法.定義

\(g(A) = g\left( A_{11},\ldots,A_{{nn}} \right) = \sum_{\left( x_{i},x_{j} \right) \in \mathcal{S}}^{}\left\| x_{i} - x_{j} \right\|_{A}^{2} - \log\left( \sum_{\left( x_{i},x_{j} \right) \in \mathcal{D}}^{}\left\| x_{i} - x_{j} \right\|_{A} \right)\)

易證\(\min g(A)\)與\(A \succcurlyeq 0\)目標優化等效，解為線性相關.因此可以使用\(Newton-Raphson\)能夠有效地優化問題.

\(g(A) = g\left( A_{11},\ldots,A_{\text{nn}} \right) = \sum_{S}^{}\left\| x_{i} - x_{j} \right\|_{A}^{2} - \ln\left( \sum_{D}^{}\left\| x_{i} - x_{j} \right\|_{A} \right)\)

設

\(\begin{matrix} x_{\text{ij}} = \left. \ \left( x_{i1} - x_{j1} \right)^{2},\ldots,\left( x_{\text{id}} - x_{\text{jd}} \right)^{2} \right)\rbrack^{T} \\ A = \left\lbrack A_{11},\ldots,A_{\text{dd}} \right\rbrack \\ \end{matrix}\)

然後

\(\begin{matrix} \left\| x_{i} - x_{j} \right\|_{A}^{2} = \left( x_{i} - x_{j} \right)^{T}A\left( x_{i} - x_{j} \right) = x_{\text{ij}}^{T}A \\ g(A) = \sum_{S}^{}x_{\text{ij}}^{T}A - \ln\left( \sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}} \right) \\ \end{matrix}\)

得出

\(\begin{matrix} g^{'}(A) = \left( \sum_{S}^{}x_{\text{ij}}^{T}A - \ln\left( \sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}} \right) \right)^{'} \\ = \sum_{S}^{}x_{\text{ij}} - \frac{1}{\sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}}}\sum_{D}^{}\frac{1}{2}\left( x_{\text{ij}}^{T}A \right)^{- \frac{1}{2}}x_{\text{ij}} \\ \end{matrix}\)

\(g^{'}(A)\)是一個與\(A\)大小相同的矩陣. 在這種情況下，我們想使用NewtonRaphson方法得到\(A\)，所以我們需要推匯出更新中使用的Hessian矩陣\(g^{''}(A)\)規則.推導過程

\(\begin{matrix} g^{''}(A) = \partial g^{'}(A)^{T}/\partial A \\ = \partial\left\lbrack - \left\lbrack \sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}} \right\rbrack^{- 1}\sum_{D}^{}\frac{1}{2}\left( x_{\text{ij}}^{T}A \right)^{- \frac{1}{2}}x_{\text{ij}}^{T} \right\rbrack/\partial A \\ = \left\lbrack \sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}} \right\rbrack\rbrack^{- 2}\sum_{D}^{}\frac{1}{2}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}}x_{\text{ij}}\sum_{D}^{}\frac{1}{2}\left( x_{\text{ij}}^{T}A \right)^{- \frac{1}{2}}x_{\text{ij}}^{T} - \\ \left\lbrack \sum_{D}^{}\left( x_{\text{ij}}^{T}A \right)^{\frac{1}{2}} \right\rbrack^{- 1}\sum_{D}^{} - \frac{1}{4}\left( x_{\text{ij}}^{T}A \right)^{- \frac{3}{2}}x_{\text{ij}}x_{\text{ij}}^{T} \\ \end{matrix}\)

計算半正定陣\(A\)

在計算\(A\)的時候，約束\(A \succcurlyeq 0\)用牛頓拉弗森進行迭代反轉Hessian時間複雜度過大.

所以提出對偶問題

\[\begin{array} { l l } { \max _ { A } } & { g ( A ) = \sum _ { \left( x , x _ { j } \right) \in \mathcal { D } } \left\| x _ { i } , x _ { j } \right\| _ { A } } \\ { \text { s.t. } } & { f ( A ) = \sum _ { \left( x _ { i } , x _ { j } \right) \in \mathcal { S } } \left\| x _ { i } , x _ { j } \right\| _ { A } ^ { 2 } \leq 1 } \\ { } & { A \succeq 0 } \end{array}\]

使用梯度上升和迭代投影來優化求解. 為了確保 \(A \succeq 0\)，如果對角元素 \(A_{ii}\) 是非負的，那麼用 \(H ^ { - 1 } \nabla g\) 替換牛頓更新 \(\alpha H ^ { - 1 } \nabla g\)，其中 \(\alpha\) 是通過優化的步長引數。

求解\(A\)優化演算法如下

Iterate
Iterate
\(\begin{array} { l } { A : = \arg \min _ { A ^ { \prime } } \left\{ \left\| A ^ { \prime } - A \right\| _ { F } : A ^ { \prime } \in C _ { 1 } \right\} } \\ { A : = \arg \min _ { A ^ { \prime } } \left\{ \left. \left| A ^ { \prime } - A \right| \right| _ { F } : A ^ { \prime } \in C _ { 2 } \right\} } \end{array}\)
until（條件：半定陣 \(A\) 收斂）
\(A : = A + \alpha \left( \nabla _ { A } g ( A ) \right) _ { \perp } \nabla _ { A } f\)
until （迭代收斂)

參考文獻: Xing EP,Ng AY,Jordan MI, et al.Distance Metric Learning,with Application to Clustering with Side-information[C]//International Conference on Neural Information Processing Systems, 2002.
擴充套件閱讀: https://metric-learn.github.io/metric-learn
周志華 - 機器學習

GitHub : python版本 https://github.com/JasonYee/Distance-metric-learning
Matlab版本 https://github.com/arlenlee/Metric-Learning
補充：
Python版本簡介見 https://github.com/JasonYee/Distance-metric-learning

matlab呼叫簡介
X：資料
S：相似性約束（以成對相似性矩陣的形式）
D：相異性約束（以成對相異矩陣的形式）
A：初始距離度量矩陣
w：來自類似資料的權重向量（見論文）
t：約束C1的上限（成對距離的總和）
maxiter：最大迭代次數
iter_projection_new2(X, S, D, A, w, t, maxiter)

敬請大家批評指正

宣告

歡迎轉載，請註明出處和作者。
作者：Arlen Lee
出處：https://www.cnblogs.com/algori/p/11122850.html

機器學習基礎：相似度和距離度量究竟是什麼
2019-10-10
機器學習
計算幾何 —— 二維幾何基礎 —— 距離度量方法
2018-10-29
機器學習: Metric Learning (度量學習)
2018-06-10
機器學習
馬氏距離與歐氏距離
2018-06-18
降維與度量學習
2018-12-04
【Python】距離
2024-08-17
Python
JavaScript 元素距離視窗頂部的距離
2019-06-20
JavaScript
編輯距離及編輯距離演算法
2019-02-16
演算法
曼哈頓距離與切比雪夫距離
2024-07-27
JavaScript獲取元素距離文件頂部的距離
2018-04-18
JavaScript
最小距離分類器，互動式選取影像樣本分類資料，進行最小距離分類（實現歐式距離，馬氏距離，計程距離）
2021-01-03
Laravel 距離排序
2019-08-06
Laravel排序
unit原子距離
2024-11-03
餘弦距離
2020-12-23
馬氏距離
2021-01-28
機器學習之分類問題度量
2020-02-14
機器學習
【DP】編輯距離
2024-04-30
曼哈頓距離與切比雪夫距離的互化
2024-04-05
度量學習筆記(一) | Metric Learning for text categorization
2019-01-15
筆記Go
機器學習之常見的效能度量
2020-12-23
機器學習
視覺化學習：利用向量計算點到線段的距離並展示
2023-11-21
視覺化
milvus 使用 l2 歐式距離計算向量的距離，計算出來的距離的最大值是多少？
2023-04-26
距離容差來源
2020-10-22
461. 漢明距離
2020-09-30
漢明距離（Hamming distance）
2024-08-19
編輯距離演算法
2024-03-29
演算法
LeetCode 461. 漢明距離
2020-11-11
LeetCode
LeetCode72編輯距離
2020-10-19
LeetCode
LeetCode 834 樹中距離之和
2020-10-06
LeetCode
經緯度距離換算
2019-05-07
線性dp：編輯距離
2024-08-23
距離-有這麼多類
2024-08-13
902.最短編輯距離
2024-08-03
C語言/C++程式設計學習：和QT零距離接觸的意義
2018-06-12
C語言C++程式設計QT
機器學習中的效能度量指標彙總
2018-09-09
機器學習指標
學會了這一招，距離Git大神不遠了！
2020-11-30
Git
45.LeetCode461. 漢明距離
2018-10-14
LeetCode
動態規劃-編輯距離
2018-06-26
動態規劃