【機器學習】李宏毅——Unsupervised Learning

讀這篇文章之間歡迎各位先閱讀我之前寫過的線性降維的文章。這篇文章應該也是屬於Unsupervised Learning的內容的。

Neighbor Embedding

Manifold Learning（流形學習）

在實際的資料中，很可能會存在這一種分佈：

在這裡插入圖片描述

左邊這個分佈可以看成原先在二維平面上的分佈硬塞到一個三維空間之中。

那麼如果我們直接對三維空間的這個分佈計算歐氏距離的話，很可能是行不通的！如果是在比較接近的點（例如圖中我用黃色箭頭標記出來的點）那麼計算歐式距離進行比較還是可以表明它們之間的接近程度的。但是如果在我標註出來的紅色的點，因此它們在三維空間中將原來的二維平面進行了扭曲，因此很可能比較歐氏距離並不能夠象徵它們之間的相似度。這個想法可以用地球在類似，如果在地球上很接近的兩個點那麼計算直線距離當然是可以的；但是如果在很遙遠的兩個點，由於三維空間內的扭曲性，那麼計算直線距離就不行了。

那麼我們如果能夠將該三維空間下的曲面展開成二維空間中分佈（如右圖），那麼我們可以發現它們的分佈就很容易進行劃分，計算歐氏距離也就能夠象徵相似程度了，這也能夠為我們的下游任務提供更多的便利。

下面就來介紹幾種能夠完成非線性降維的方法

Locally Linear Embedding(LLE)

當前我們擁有以下樣本，那麼對於其中的某一個樣本\(x^i\)來說，其各個鄰居為\(x^j\)，那麼它和各個鄰居之間的“關係”為\(w_{ij}\)，如下圖所示：

在這裡插入圖片描述

那麼這個關係的確定是認為\(x^i\)可以由各個鄰居\(x^j\)經過線性變換組合而成，即：

\[w^*=argmin_{w} \sum_i \lVert x^i-\sum_jw_{ij}x^j \rVert_2 \]

而假設經過降維之後\(x^i\)對應為\(z^i\)，其需要滿足的條件為降維後各個z之間的關係要保持不變，即：

\[Z^*=argmin_Z \sum_i \lVert z^i-\sum_jw_{ij}z^j \rVert_2 \]

在這裡插入圖片描述

那麼採用這一種類似方法的好處在於即使你不知道原來樣本x應該怎麼表示，只要你能夠知道如何計算它們之間的關係，你就仍然可以完成降維。

而這個方法需要注意的是要調節選擇的鄰居數目，適合的數目才能夠帶來夠好的效果：

在這裡插入圖片描述

T-distributed Stochastic Neighbor Embedding(t-SNE)

前面提及的各個演算法雖然都限制了在原來維度中相接近的點，降維之後也要相接近，但是都沒有限制在原來維度中不接近的點，降維之後也要分割開來，因此例如LLE會出現以下情形，即不同類別的點也都擠在了一起：

在這裡插入圖片描述

那麼t-SNE的處理方法就較為不同，具體如下：

對於原來的資料x和我們想要降維而成的資料z
在原來的維度空間中對每個樣本計算相似度\(S(x^i,x^j)\)(計算的方法可自行選擇)，再將該相似度轉為分佈，即\(P(x^j \mid x^i)=\frac{S(x^i,x^j)}{\sum_{k\neq i}S(x^i,x^k)}\)
在降維而得到的空間也做相似計算，即\(S'(z^i,z^j)\)和\(Q(z^j\mid z^i)=\frac{S'(z^i,z^j)}{\sum_{k\neq i}S'(z^i,z^k)}\)
而求解方法就是找到一組z，使得分佈P和分佈Q能夠更加接近，相當於最小化這兩個分佈的KL散度，即\(L=\sum_{i}KL(P(*\mid x^i)\mid \mid Q(*\mid z^i))\)

t-SNE在選擇相似度的度量函式的時候有一個很奇妙的地方，其選擇為：

\[S(x^i,x^j)=exp(-\lVert x^i-x^j \rVert_2)\\S'(z^i,z^j)=\frac{1}{1+\lVert z^i-z^j \rVert_2} \]

因為按照我們正常的邏輯應該是在x中選擇什麼樣的度量指標，在z上就選擇一樣的度量指標，但t-SNE這樣選擇的理由，我們需要透過這兩個函式的曲線來說明：

在這裡插入圖片描述

首先，因為我們在進行降維的時候是希望兩個分佈越接近越好，也就是說x降到z之後它們的S是越接近越好，因此在降維的時候應該是在某一點的x直接進行水平方向的平移（保持S不變）找到對應的z
其次，我們可以看到上面兩個橙色的點和兩個藍色的點，從橙色的點降維到藍色的點之後兩個點之間的距離會變大，也就是說如果原來在x中的兩個點很接近，那麼降維之後的點距離被拉開的程度是不嚴重的；但如果在x中兩個點本身就有一定的距離，由於z的函式曲線下降的很慢，因此降維後這個距離就會被拉開很嚴重

因此t-SNE的分類結果大致如下：

在這裡插入圖片描述

Deep Generative Model

費曼曾經說過：What I cannot create, I do not understand.

那麼這句話用在當前的機器學習之中也同樣適用：因為當前的機器學習雖然可以做到完成分辨的任務，例如分辨出貓和狗，但如果有一天機器可以自己“創造”出一張貓的影像，那麼也許機器才能夠對貓這個名詞的概念有更深的瞭解。而“創造”就是生成模型的任務。因此本節主要是對當前生成模型的研究進行介紹。

PixelRNN

如果對RNN沒有了解且有興趣地可以看我這篇文章，如果不閱讀的話也是可以看得懂接下來PiexlRNN的具體流程的。

假設我們要創造一張\(3\times 3\)的影像，那麼我們可以訓練一個神經網路，它可以不斷接受已經創造出來的畫素點對應的向量，然後輸出下一個畫素點應該對應的向量，如下圖所示：

在這裡插入圖片描述

你可能會好奇為什麼每一次輸入的個數都不一樣，其實這是RNN的特性決定的，它可以處理輸入不同個數向量的情況。

那麼李宏毅老師也將這個想法用來創造一些神奇寶貝，但是在訓練的時候發現了以下需要注意的地方，我覺得這些點能夠讓我們在以後的某些工作中受到啟發：

一個畫素點的數值是表示為一個RGB三個通道的，而因為神經網路在輸出的時候通常會經過一個啟用函式（例如Sigmord），而這會導致各個通道的數值一般都很少出現為0或者為1的極端情況，都是聚集在中間。而由於影像的性質如果三個通道的數值都集中在中間那麼就會使得畫素呈現較重的灰色。要產生鮮豔的顏色就必須某些通道接近1，其他通道接近0。對於這個問題的解決方法就是不輸出通道值，將每個畫素點用一個one-hat-vector來表示，其中每一個維度代表一種常見的鮮豔的顏色
但這樣又有一個問題就是顏色太多了會導致這個向量很長，那麼解決方法是將相似的顏色進行聚類，統一成一種顏色來表示，最終表示為160多種顏色。

做出來的效果如下圖：
在這裡插入圖片描述

Variational Auto-encoder(VAE)

What is VAE

VAE是在Auto-encoder進行了改進。首先先介紹在結構和訓練過程上的改進：

在這裡插入圖片描述

在結構上，VAE的En輸出不只是一個Embedding，而是輸出兩個向量\(M,\sigma\)，然後再從標準正態分佈中產生一個向量\(E\)，接下來的操作就是圖中生成向量\(C\)的操作了，然後再將C放入De之中還原出輸入
在訓練上，VAE不僅僅要求還原出來的輸出要跟輸入儘可能接近，還需要最小化右下角的式子

因此訓練完成之後就可以將VAE的De取出來做生成任務。

Why VAE

為什麼Auto-encoder不夠，而需要改進的VAE呢？我們透過下面這個例子來進行解釋。

假設Auto-encoder做的事情是下面的，將月亮的圖片變成Code，再還原成月亮的圖片，那麼如果在滿月和半月對應的Code之間選擇一個點，進行還原的話，是否還原出來的圖片也會像是滿月和半月之間的月亮呢？不會！因為Auto-encoder只學習了對應的滿月和半月兩個點的轉換，中間的轉換並沒有學習，因此轉換出來很難想象是什麼東西。

在這裡插入圖片描述

但對於VAE來說，它不僅僅是對滿月和半月這兩個點來進行學習，它還加入了一定的噪聲，同時學習過程之中還要求加入噪聲之後也要還原出原來的圖片，因此在滿月的Code對應的點的附近就都能夠還原出滿月。而如果滿月的噪聲的範圍和半月的噪聲的範圍有交集，在這個交集之中因為VAE既學習了要像滿月，也學習了要像半月，因此真的有可能就會在該點Code上還原出一張介於滿月和半月之間的圖片。

在這裡插入圖片描述