Paper Information
Title:Cauchy Graph Embedding
Authors:Dijun Luo, C. Ding, F. Nie, Heng Huang
Sources:2011, ICML
Others:71 Citations, 30 References
Abstract
拉普拉斯嵌入( Laplacian embedding)為圖的節點提供了一種低維表示,其中邊權值表示節點物件之間的成對相似性。通常假設拉普拉斯嵌入結果保留了低維投影子空間上原始資料的區域性拓撲結構,即對於任何一對相似性較大的圖節點,它們都應該緊密地嵌入在嵌入空間中。然而,在本文中,我們將證明 Laplacian embedding 往往不能像我們預期的那樣很好地保持區域性拓撲。為了增強圖嵌入中的區域性拓撲保持性,我們提出了一種新的 Cauchy Graph Embedding 方法,它通過一個新的目標來保持嵌入空間中原始資料的相似性關係。
1 Introduction
從資料嵌入的角度來看,我們可以將無監督嵌入方法分為兩類。第一類方法是通過線性變換將資料嵌入到線性空間中,如主成分分析(PCA)(Jolliffe,2002)和多維尺度分析(MDS)(Cox&Cox,2001)。主成分分析和 MDS 都是特徵向量方法,可以在高維資料中的線性變數。它們早已廣為人知,並被廣泛應用於許多機器學習應用程式中。
然而,真實資料的底層結構往往是高度非線性的,因此不能用線性流形精確地近似。第二類方法基於不同的目的以非線性的方式嵌入資料。最近提出了幾種有前途的非線性方法,包括 IsoMAP (Tenenbaum et al., 2000), Local Linear Embedding (LLE) (Roweis & Saul, 2000), Local Tangent Space Alignment (Zhang & Zha, 2004), Laplacian Embedding/Eigenmap (Hall, 1971; Belkin & Niyogi, 2003; Luo et al., 2009), and Local Spline Embedding (Xiang et al., 2009) etc。通常,他們建立了一個由鄰域圖匯出的二次目標,並求解它的主要特徵向量:Isomap 取與最大特徵值相關的特徵向量;LLE 和 拉普拉斯嵌入 使用與最小特徵值相關的特徵向量。Isomap 試圖保持沿低維流形測量的輸入資料的全域性成對距離;LLE和拉普拉斯嵌入試圖保持資料的區域性幾何關係。
2 Laplacian Embedding
首先介紹 Laplacian embedding 。輸入資料是 $n$ 個資料物件之間成對相似性的矩陣 $W$。把 $W$ 看作是一個有 $n$ 個節點的圖上的邊的權值。其任務是將圖中的節點嵌入到具有座標 $\left(x_{1}, \cdots, x_{n}\right)$ 的一維空間中。目標是,如果 $i$,$j$ 相似(即 $w_{ij}$ 很大),它們應該在嵌入空間中應該相鄰,即 ${(x_i−x_j)}^2$ 應該很小。這可以通過最小化來實現。
$\underset{\mathbf{x}}{\text{min}}J(\mathbf{x})=\sum\limits_{i j}\left(x_{i}-x_{j}\right)^{2} w_{i j}\quad\quad\quad(1)$
如果最小化 $ \sum\limits_{i j}\left(x_{i}-x_{j}\right)^{2} w_{i j} $ 沒有限制,那麼可以使得向量 $\mathbf{x} $ 全為 $0$ 向量,這顯然不行, 因此加入限制 $\sum\limits_{i} x_{i}^{2}=1$ 。另一個問題是原目標函式具有平移不變性,即將 $x_{i} $ 替換為 $x_{i}+a$ 解不變,這顯然不行,所以加入限制 $\sum\limits x_{i}=0$,即 $x$ 圍繞在 $0$ 附近。此時原目標函式變為:
$\begin{array}{c} \min _{\mathbf{x}} \sum\limits_{i j}\left(x_{i}-x_{j}\right)^{2} w_{i j},\\\ \text { s.t. } \sum\limits_{i} x_{i}^{2}=1, \sum\limits_{i} x_{i}=0\end{array}$
這個嵌入問題的解決方案很容易得到,因為
$J(\mathbf{x})=2 \sum\limits_{i j} x_{i}(D-W)_{i j} x_{j}=2 \mathbf{x}^{T}(D-W) \mathbf{x}$
其中 $D=\operatorname{diag}\left(d_{1}, \cdots, d_{n}\right)$,$d_{i}=\sum\limits_{j} W_{i j}$。矩陣 $(D-W)$ 稱為圖拉普拉斯運算元,最小化嵌入目標的嵌入解由
$(D-W) \mathbf{x}=\lambda \mathbf{x} \quad \quad \quad (4)$
拉普拉斯嵌入在機器學習中得到了廣泛的應用,用於保留區域性拓撲的圖節點的正則化
3 The Local Topology Preserving Property of Graph Embedding
本文研究了圖嵌入的區域性拓撲保持性質。首先給出了區域性拓撲保留的定義,並證明了與被廣泛接受的概念相反,拉普拉斯嵌入可能不能在嵌入空間中保留原始資料的區域性拓撲。
3.1 Local Topology Preserving
首先給出了區域性拓撲保留的定義。給定一個邊權值為 $W=\left(w_{i j}\right) $ 的對稱(無向)圖,並且對圖的 $n$ 個節點具有相應的嵌入 $\left(\mathbf{x}_{1}, \cdots, \mathbf{x}_{n}\right)$。如果以下條件成立,我們假設嵌入保持了區域性拓撲
$\text { if } w_{i j} \geq w_{p q} \text {, then }\left(x_{i}-x_{j}\right)^{2} \leq\left(x_{p}-x_{q}\right)^{2}, \forall i, j, p, q \text {. }\quad\quad \quad (5) $
粗略地說,這個定義說,對於任何一對節點 $(i,j)$,它們越相似(邊的權重 $w_{ij} $越大),它們應該嵌入在一起就越近( $|x_i−x_j|$ 應該越小)。
拉普拉斯嵌入在機器學習中被廣泛應用於保留區域性拓撲的概念。作為本文的一個貢獻,我們在這裡指出這種關於區域性拓撲保留的感知概念在許多情況下實際上是錯誤的。
我們的發現有兩個方面。首先,在大距離(相似度小):
The quadratic function of the Laplacian embedding emphasizes the large distance pairs, which enforces node pair $(i,j)$ with small $w_{ij}$ to be separated far-away.
第二,在小距離(大相似性)處:
The quadratic function of the Laplacian embedding de-emphasizes the small distance pairs, leading to many violations of local topology preserving at small distance pairs.
在下面,我們將展示一些示例來支援我們的發現。這一發現的一個結果是,k個最近鄰(kNN)型別的分類方法將表現得很差,因為它們依賴於區域性拓撲屬性。在此基礎上,我們提出了一種新的圖嵌入方法,它強調小距離(大相似性)資料對,從而強制在嵌入空間中保持區域性拓撲。
3.2. Experimental Evidences
在 “manifold” data 上,證明了本文提出的方法好於LE。
這裡
$w_{i j}=\exp \left(-\left\|x_{i}-x_{j}\right\|^{2} / \vec{d}^{2}\right)$
$\bar{d}=\left(\sum\limits _{i \neq j}\left\|x_{i}-x_{j}\right\|\right) /(n(n-1))$
4. Cauchy Embedding
在本文中,我們提出了一種新的強調短距離的圖嵌入方法,並確保在區域性,兩個節點越相似,它們在嵌入空間中就越近。
我們的方法如下。關鍵思想是,對於具有大 $ w_{i j}$ 的一對 $(i,j)$,$\left(x_{i}-x_{j}\right)^{2}$ 應該很小,從而使目標函式最小化。現在,如果 $\left(x_{i}-x_{j}\right)^{2} \equiv \Gamma_{1}\left(\left|x_{i}-x_{j}\right|\right) $ 很小,比如:
$\frac{\left(x_{i}-x_{j}\right)^{2}}{\left(x_{i}-x_{j}\right)^{2}+\sigma^{2}} \equiv \Gamma_{2}\left(\left|x_{i}-x_{j}\right|\right)$
此外,函式 $\Gamma_{1}(\cdot)$ 是單調的,函式 $\Gamma_{2}(\cdot)$ 也是單調的。因此,我們最小化
$\begin{array}{ll}\underset{\mathbf{x}}{\text{min}} \quad & \sum\limits _{i j} \frac{\left(x_{i}-x_{j}\right)^{2}}{\left(x_{i}-x_{j}\right)^{2}+\sigma^{2}} w_{i j} \\\text { s.t., } & \|\mathbf{x}\|^{2}=1, \mathbf{e}^{T} \mathbf{x}=0 \end{array}$
由於
$\frac{\left(x_{i}-x_{j}\right)^{2}}{\left(x_{i}-x_{j}\right)^{2}+\sigma^{2}}=1-\frac{\sigma^{2}}{\left(x_{i}-x_{j}\right)^{2}+\sigma^{2}}$
因此可以簡化為
$\begin{aligned}\underset{\mathbf{x}}{\text{max}} & \sum_{i j} \frac{w_{i j}}{\left(x_{i}-x_{j}\right)^{2}+\sigma^{2}}, \\\text { s.t. } & \sum_{i} x_{i}^{2}=1, \sum_{i} x_{i}=0 .\end{aligned}$
柯西嵌入的目標函式之間的最重要的區別 [ Eq. (6) Eq. (7) ] 與拉普拉斯嵌入的目標函式 [ Eq. (1) ]如下。對於拉普拉斯嵌入,大距離 $\left(x_{i}-\right. \left.x_{j}\right)^{2}$ 項由於二次形式而貢獻更大,而對於柯西嵌入,小距離 $\left(x_{i}-\right. \left.x_{j}\right)^{2}$ 項貢獻更大。這一關鍵的差異確保了柯西嵌入表現出更強的區域性拓撲保持性。
4.1. Multi-dimensional Cauchy Embedding
為了表示的簡單和清晰,我們首先考慮二維嵌入。對於二維嵌入,每個節點 $i$ 都嵌入在具有座標 $(x_i,y_i)$ 的二維空間中。通常的拉普拉斯式嵌入可以表示為
$\begin{array}{ll}\underset{\mathbf{x,y}}{\text{max}} & \sum\limits _{i j}\left[\left(x_{i}-x_{j}\right)^{2}+\left(y_{i}-y_{j}\right)^{2}\right] w_{i j} \quad\quad\quad(8) \\\text { s.t. } & \|\mathbf{x}\|^{2}=1, \mathbf{e}^{T} \mathbf{x}=0 \quad\quad\quad\quad\quad\quad\quad\quad(9)\\& \|\mathbf{y}\|^{2}=1, \mathbf{e}^{T} \mathbf{y}=0 \quad\quad\quad\quad\quad\quad\quad\quad(10)\\& \mathbf{x}^{T} \mathbf{y}=0 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(11)\end{array}$
其中 $\mathbf{e}=(1, \cdots, 1)^{T}$ . 約束 $\mathbf{x}^{T} \mathbf{y}=0$ 很重要,因為沒有它,優化得到的最優值為 $\mathbf{x}=\mathbf{y}$。
二維柯西矩陣的動機是通過以下優化得到的
$ \underset{\mathbf{x,y}}{\text{min}} \sum_{i j} \frac{\left(x_{i}-x_{j}\right)^{2}+\left(y_{i}-y_{j}\right)^{2}}{\left(x_{i}-x_{j}\right)^{2}+\left(y_{i}-y_{j}\right)^{2}+\sigma^{2}} w_{i j}\quad\quad\quad (12)$
具有相同的約束方程式。(8-11).這將被簡化為
$\underset{\mathbf{x,y}}{\text{min}}\frac{w_{i j}}{\left(x_{i}-x_{j}\right)^{2}+\left(y_{i}-y_{j}\right)^{2}+\sigma^{2}}$
一般來說,$p$ 維柯西嵌入到 $R= \left(\mathbf{r}_{1}, \cdots, \mathbf{r}_{n}\right) \in \Re^{p \times n}$ 是通過優化獲得
$\begin{array}{rl}\underset{\mathbf{R}}{\text{max}} & J(R)=\sum\limits _{i j} \frac{w_{i j}}{\left\|\mathbf{r}_{i}-\mathbf{r}_{j}\right\|^{2}+\sigma^{2}} \quad\quad(14)\\\text { s.t. } & R R^{T}=I, R \mathbf{e}=\mathbf{0}\quad\quad(15)\end{array}$
4.2. Exponential and Gaussian Embedding
In Cauchy embedding the short distance pairs are emphasized more than large distance pairs, in comparison to Laplacian embedding. We can further emphasize the short distance pairs and de-emphasize large distance pairs by the following Gaussian embedding:
$\begin{array}{r}\underset{\mathbf{x}}{\text{max}} \sum\limits _{i j} \exp \left[-\frac{\left(x_{i}-x_{j}\right)^{2}}{\sigma^{2}}\right] w_{i j}\quad\quad(16) \\\text { s.t., }\|\mathbf{x}\|^{2}=1, \mathbf{e}^{T} \mathbf{x}=0\quad\quad(17) \end{array}$
或者指數嵌入
$\begin{array}{r}\underset{\mathbf{x}}{\text{max}} \sum\limits _{i j} \exp \left[-\frac{\left|x_{i}-x_{j}\right|}{\sigma}\right] w_{i j} \\\text { s.t., }\|\mathbf{x}\|^{2}=1, \mathbf{e}^{T} \mathbf{x}=0\end{array}$
一般情況下,我們可以引入 decay function $\Gamma\left(d_{i j}\right)$,並將這三個嵌入目標寫為
$\underset{\mathbf{x}}{\text{max}} \sum\limits _{i j} \Gamma\left(\left|x_{i}-x_{j}\right|\right) w_{i j}, \text { s.t. },\|\mathbf{x}\|^{2}=1, \mathbf{e}^{T} \mathbf{x}=0\quad\quad(20)$
下面是一系列的decay functions:
Laplacian embed: $\quad \Gamma_{\text {Laplace }}\left(d_{i j}\right)=-d_{i j}^{2}\quad\quad(21) $
Cauchy embed: $\quad \Gamma_{\text {Cauchy }}\left(d_{i j}\right)=\frac{1}{d_{i j}^{2}+\sigma^{2}}\quad\quad(22) $
Gaussian embed: $\quad \Gamma_{\text {Gaussian }}\left(d_{i j}\right)=e^{-d_{i j}^{2} / \sigma^{2}}\quad\quad(23)$
Exponential embed: $\quad \Gamma_{\exp }\left(d_{i j}\right)=e^{-d_{i j} / \sigma}\quad\quad(24)$
Linear embed: $\quad \Gamma_{\text {linear }}\left(d_{i j}\right)=-d_{i j} \quad\quad(25)$
我們討論了衰變函式的兩個性質。
-
- 對衰減函式有一個要求:$\Gamma(d)$ 必須是隨著 $d$ 的增加而單調遞減的。如果違反了這種單調性,那麼嵌入就沒有意義了。
- 衰減函式在一個常數之前是未定義的,即 $\Gamma^{\prime}\left(d_{i j}\right)=\Gamma\left(d_{i j}\right)+c$ 導致任何常數 $c$ 得到相同的嵌入。
我們可以看到這些衰減函式的不同行為,如圖3所示,我們發現,在 $\Gamma_{\text {Laplace }}(d)$ 和 $\Gamma_{\text {linear }}(d)$ 中,大距離對佔優勢,而在 $\Gamma_{\exp }(d)$,$\Gamma_{\text {Gaussian }} $,和 $\Gamma_{\text {Cauchy }}(d)$ 中,小距離對佔優勢。
4.3. Algorithms to Compute Cauchy Embedding
我們的演算法是基於以下定理的。
Theorem 1 If $J(R)$ defined in Eq. (14) is Lipschitz continuous with constant $L \geq 0$ , and
$\begin{array}{l}R^{*}=\arg\underset{\text{R}}{\text{min}} \left\|R-\left(\tilde{R}+\frac{1}{L} \nabla J(\tilde{R})\right)\right\|_{F}^{2} \quad\quad\quad\quad(26)\\\text { s.t. } R R^{T}=I, R \mathbf{e}=\mathbf{0}\end{array}$
then $J\left(R^{*}\right) \geq J(\tilde{R})$
證明:
Since $J(R)$ is Lipschitz continuous with constant $ L$ , from (Nesterov, 2003), we have
$J(X) \leq J(Y)+\langle X-Y, \nabla J(X)\rangle+\frac{L}{2}\|X-Y\|_{F}^{2}, \forall X, Y$
By apply this inequality, we further obtain
$J(\tilde{R}) \leq J\left(R^{*}\right)+\left\langle\tilde{R}-R^{*}, \nabla J(\tilde{R})\right\rangle+\frac{L}{2}\left\|\tilde{R}-R^{*}\right\|_{F}^{2}\quad\quad\quad(27)$
By definition of $R^{*}$ , we have
$\begin{aligned}&\left\|R^{*}-\left(\tilde{R}+\frac{1}{L} \nabla J(\tilde{R})\right)\right\|_{F}^{2} \\\leq \quad &\left\|\tilde{R}-\left(\tilde{R}+\frac{1}{L} \nabla J(\tilde{R})\right)\right\|_{F}^{2}=\frac{1}{L^{2}}\|\nabla J(\tilde{R})\|_{F}^{2}\end{aligned}$
or
$\left\|R^{*}-\tilde{R}\right\|_{F}^{2}-2\left\langle R^{*}-\tilde{R}, \frac{1}{L} \nabla J(\tilde{R})\right\rangle+\frac{1}{L^{2}}\|\nabla J(\tilde{R})\|_{F}^{2} \\
\leq \frac{1}{L^{2}}\|\nabla J(\tilde{R})\|_{F}^{2}$
$\left\|R^{*}-\tilde{R}\right\|_{F}^{2}+2\left\langle\tilde{R}-R^{*}, \frac{1}{L} \nabla J(\tilde{R})\right\rangle \leq 0\quad \quad \quad (28)$
By combining Eq. (27) and Eq. (28) and notice that $L \geq 0$ , we have
$J\left(R^{*}\right) \geq J(\tilde{R})$
which completes the proof.
Further more, for Eq. (26), we have the following solution,
Theorem 2 $R^{*}=V^{T}$ is the optimal solution of Eq. (26), where $U S V^{T}=M\left(I-\mathbf{e e}^{T} / n\right) $, is the Singular Value Decompotition (S V D) of $M\left(I-\mathbf{e e}^{T} / n\right)$ and $M=\tilde{R}+ \frac{1}{L} \nabla J(\tilde{R}) $.
Proof. Let $M=\tilde{R}+\frac{1}{L} \nabla J(\tilde{R})$ , by applying the Lagrangian multipliers $\Lambda$ and $\mu$ , we get following Lagrangian function,
$\mathcal{L}=\|R-M\|_{F}^{2}+\left\langle R R^{T}-I, \Lambda\right\rangle+\mu^{T} R \mathbf{e}\quad \quad(29)$
By taking the derivative w.r.t. R , and setting it to zero, we have
$2 R-2 M+\Lambda R+\mu \mathbf{e}^{T}=0\quad \quad(30)$
Since $R \mathbf{e}=0$ , and $\mathbf{e}^{T} \mathbf{e}=n $, we have $\mu=2 M \mathbf{e} / n$ , and
$(I+\Lambda) R=M\left(I-\mathrm{ee}^{T} / n\right)\quad\quad\quad(31)$
Since $U S V^{T}=M\left(I-\mathbf{e e}^{T} / n\right)$ , we let $R^{*}=V^{T}$ and $\Lambda=U S-I$ , then the KKT condition of the Lagrangian function is satisfied. Notice that the objective function of Eq. (26) is convex w.r.t R . Thus $R^{*}=V^{T}$ is the optimal solution of Eq. (26).
From the above theorem, we use the following algorithm to solve the Cauchy embedding problem.
Algorithm. Starting from an initial solution and an initial guess of Lipschitz continuous constant $L $, we iteratively update the current solution until convergence. Each iteration consists of the following steps:
(1) Compute $M$ ,
$M \leftarrow R+\frac{1}{L} \nabla J(R)\quad\quad\quad(32)$
(2) Compute the SVD of $M\left(I-\mathbf{e e}^{T} / n\right): U S V^{T}=M(I- ee \left.^{T} / n\right)$ , and set $R \leftarrow V^{T} $,
(3) If Eq. (28) does not hold, increase $L$ by $L \leftarrow \gamma L$ .
We use the Laplacian embedding results as the initial solution for the gradient algorithm.
5. Experimental Results
略