吳恩達《序列模型》課程筆記（2）– NLP & Word Embeddings

《Recurrent Neural Networks》是Andrw Ng深度學習專項課程中的第五門課，也是最後一門課。這門課主要介紹迴圈神經網路（RNN）的基本概念、模型和具體應用。該門課共有3周課時，所以我將分成3次筆記來總結，這是第二節筆記。

1. Word Representation

上節課我們介紹過表徵單詞的方式是首先建立一個較大的詞彙表（例如10000），然後使用one-hot的方式對每個單詞進行編碼。例如單詞Man，Woman，King，Queen，Apple，Orange分別出現在詞彙表的第5391，9853，4914，7157，456，6257的位置，則它們分別用 $O_{5391},O_{9853},O_{4914},O_{7157},O_{456},O_{6257}$ 表示。

這中one-hot表徵單詞的方法最大的缺點就是每個單詞都是獨立的、正交的，無法知道不同單詞之間的相似程度。例如Apple和Orange都是水果，詞性相近，但是單從one-hot編碼上來看，內積為零，無法知道二者的相似性。在NLP中，我們更希望能掌握不同單詞之間的相似程度。

因此，我們可以使用特徵表徵（Featurized representation）的方法對每個單詞進行編碼。也就是使用一個特徵向量表徵單詞，特徵向量的每個元素都是對該單詞某一特徵的量化描述，量化範圍可以是[-1,1]之間。特徵表徵的例子如下圖所示：

特徵向量的長度依情況而定，特徵元素越多則對單詞表徵得越全面。這裡的特徵向量長度設定為300。使用特徵表徵之後，詞彙表中的每個單詞都可以使用對應的300 x 1的向量來表示，該向量的每個元素表示該單詞對應的某個特徵值。每個單詞用e+詞彙表索引的方式標記，例如 $e_{5391},e_{9853},e_{4914},e_{7157},e_{456},e_{6257}$ 。

這種特徵表徵的優點是根據特徵向量能清晰知道不同單詞之間的相似程度，例如Apple和Orange之間的相似度較高，很可能屬於同一類別。這種單詞“類別”化的方式，大大提高了有限詞彙量的泛化能力。這種特徵化單詞的操作被稱為Word Embeddings，即單詞嵌入。

值得一提的是，這裡特徵向量的每個特徵元素含義是具體的，對應到實際特徵，例如性別、年齡等。而在實際應用中，特徵向量很多特徵元素並不一定對應到有物理意義的特徵，是比較抽象的。但是，這並不影響對每個單詞的有效表徵，同樣能比較不同單詞之間的相似性。

每個單詞都由高維特徵向量表徵，為了視覺化不同單詞之間的相似性，可以使用降維操作，例如t-SNE演算法，將300D降到2D平面上。如下圖所示：

從上圖可以看出相似的單詞分佈距離較近，從而也證明了Word Embeddings能有效表徵單詞的關鍵特徵。

2. Using word embedding

之前我們介紹過Named entity識別的例子，每個單詞采用的是one-hot編碼。如下圖所示，因為“orange farmer”是份職業，很明顯“Sally Johnson”是一個人名。

如果採用featurized representation對每個單詞進行編碼，再構建該RNN模型。對於一個新的句子：

Robert Lin is an apple farmer

由於這兩個句子中，“apple”與“orange”特徵向量很接近，很容易能判斷出“Robert Lin”也是一個人名。這就是featurized representation的優點之一。

可以看出，featurized representation的優點是可以減少訓練樣本的數目，前提是對海量單詞建立特徵向量表述（word embedding）。這樣，即使訓練樣本不夠多，測試時遇到陌生單詞，例如“durian cultivator”，根據之前海量詞彙特徵向量就判斷出“durian”也是一種水果，與“apple”類似，而“cultivator”與“farmer”也很相似。從而得到與“durian cultivator”對應的應該也是一個人名。這種做法將單詞用不同的特徵來表示，即使是訓練樣本中沒有的單詞，也可以根據word embedding的結果得到與其詞性相近的單詞，從而得到與該單詞相近的結果，有效減少了訓練樣本的數量。

featurized representation的特性使得很多NLP任務能方便地進行遷移學習。方法是：

從海量詞彙庫中學習word embeddings，即所有單詞的特徵向量。或者從網上下載預訓練好的word embeddings。
使用較少的訓練樣本，將word embeddings遷移到新的任務中。
（可選）：繼續使用新資料微調word embeddings。

建議僅當訓練樣本足夠大的時候，再進行上述第三步。

有趣的是，word embeddings與吳恩達《卷積神經網路》課程筆記（4）– 人臉識別與神經風格遷移中介紹的人臉特徵編碼有很多相似性。人臉圖片經過Siamese網路，得到其特徵向量 $f(x)$ ，這點跟word embedding是類似的。二者不同的是Siamese網路輸入的人臉圖片可以是資料庫之外的；而word embedding一般都是已建立的詞彙庫中的單詞，非詞彙庫單詞統一用< UNK >表示。

3. Properties of word embeddings

Word embeddings可以幫助我們找到不同單詞之間的相似類別關係。如下圖所示：

上例中，特徵維度是4維的，分別是[Gender, Royal, Age, Food]。常識地，“Man”與“Woman”的關係類比於“King”與“Queen”的關係。而利用Word embeddings可以找到這樣的對應類比關係。

我們將“Man”的embedding vector與“Woman”的embedding vector相減：

類似地，我們將“King”的embedding vector與“Queen”的embedding vector相減：

相減結果表明，“Man”與“Woman”的主要區別是性別，“King”與“Queen”也是一樣。

一般地，A類比於B相當於C類比於“？”，這類問題可以使用embedding vector進行運算。

如上圖所示，根據等式 $e_{man}-e_{woman}\approx e_{king}-e_?$ 得：

$e_?=e_{king}-e_{man}+e_{woman}$

利用相似函式，計算與 $e_{king}-e_{man}+e_{woman}$ 相似性最大的 $e_?$ ，得到 $e_?=e_{queen}$ 。

關於相似函式，比較常用的是cosine similarity。其表示式為：

$Sim(u,v)=\frac{u^Tv}{||u||\cdot ||v||}$

還可以計算Euclidian distance來比較相似性，即 $||u-v||^2$ 。距離越大，相似性越小。

4. Embedding matrix

假設某個詞彙庫包含了10000個單詞，每個單詞包含的特徵維度為300，那麼表徵所有單詞的embedding matrix維度為300 x 10000，用 $E$ 來表示。某單詞w的one-hot向量表示為 $O_w$ ，維度為10000 x 1，則該單詞的embedding vector表示式為：

$e_w=E\cdot O_w$

因此，只要知道了embedding matrix $E$ ，就能計算出所有單詞的embedding vector $e_w$ 。後面我們將重點介紹如何求出 $E$ 。

值得一提的是，上述這種矩陣乘積運算 $E\cdot O_w$ 效率並不高，矩陣維度很大，且 $O_w$ 大部分元素為零。通常做法是直接從 $E$ 中選取第w列作為 $e_w$ 即可。

5. Learning word embeddings

embedding matrix $E$ 可以通過構建自然語言模型，運用梯度下降演算法得到。舉個簡單的例子，輸入樣本是下面這句話：

I want a glass of orange (juice).

通過這句話的前6個單詞，預測最後的單詞“juice”。 $E$ 未知待求，每個單詞可用embedding vector $e_w$ 表示。構建的神經網路模型結構如下圖所示：

神經網路輸入層包含6個embedding vactors，每個embedding vector維度是300，則輸入層總共有1800個輸入。Softmax層有10000個概率輸出，與詞彙表包含的單詞數目一致。正確的輸出label是“juice”。其中 $E,W^{[1]},b^{[1]},W^{[2]},b^{[2]}$ 為待求值。對足夠的訓練例句樣本，運用梯度下降演算法，迭代優化，最終求出embedding matrix $E$ 。

這種演算法的效果還不錯，能夠保證具有相似屬性單詞的embedding vector相近。

為了讓神經網路輸入層數目固定，可以選擇只取預測單詞的前4個單詞作為輸入，例如該句中只選擇“a glass of orange”四個單詞作為輸入。當然，這裡的4是超引數，可調。

一般地，我們把輸入叫做context，輸出叫做target。對應到上面這句話裡：

context: a glass of orange
target: juice

關於context的選擇有多種方法：

target前n個單詞或後n個單詞，n可調
target前1個單詞
target附近某1個單詞（Skip-Gram）

事實證明，不同的context選擇方法都能計算出較準確的embedding matrix $E$ 。

6. Word2Vec

上一小節我們介紹了context和target的選擇方法，比較流行的是採用Skip-Gram模型。以下面這句話為例：

I want a glass of orange juice to go along with my cereal.

Skip-Gram模型的做法是：首先隨機選擇一個單詞作為context，例如“orange”；然後使用一個寬度為5或10（自定義）的滑動窗，在context附近選擇一個單詞作為target，可以是“juice”、“glass”、“my”等等。最終得到了多個context—target對作為監督式學習樣本。

訓練的過程是構建自然語言模型，經過softmax單元的輸出為：

$\hat y=\frac{e^{\theta_t^T\cdot e_c}}{\sum_{j=1}^{10000}e^{\theta_j^T\cdot e_c}}$

其中， $\theta_t$ 為target對應的引數， $e_c$ 為context的embedding vector，且 $e_c=E\cdot O_c$ 。

相應的loss function為：

$L(\hat y,y)=-\sum_{i=1}^{10000}y_ilog\ \hat y_i$

然後，運用梯度下降演算法，迭代優化，最終得到embedding matrix $E$ 。

然而，這種演算法計算量大，影響運算速度。主要因為softmax輸出單元為10000個， $\hat y$ 計算公式中包含了大量的求和運算。解決的辦法之一是使用hierarchical softmax classifier，即樹形分類器。其結構如下圖所示：

這種樹形分類器是一種二分類。與之前的softmax分類器不同，它在每個數節點上對目標單詞進行區間判斷，最終定位到目標單詞。這好比是猜數字遊戲，數字範圍0～100。我們可以先猜50，如果分類器給出目標數字比50大，則繼續猜75，以此類推，每次從資料區間中部開始。這種樹形分類器最多需要 $log\ N$ 步就能找到目標單詞，N為單詞總數。

實際應用中，對樹形分類器做了一些改進。改進後的樹形分類器是非對稱的，通常選擇把比較常用的單詞放在樹的頂層，而把不常用的單詞放在樹的底層。這樣更能提高搜尋速度。

最後提一點，關於context的取樣，需要注意的是如果使用均勻取樣，那麼一些常用的介詞、冠詞，例如the, of, a, and, to等出現的概率更大一些。但是，這些單詞的embedding vectors通常不是我們最關心的，我們更關心例如orange, apple， juice等這些名詞等。所以，實際應用中，一般不選擇隨機均勻取樣的方式來選擇context，而是使用其它演算法來處理這類問題。

Skip-Gram模型是Word2Vec的一種，Word2Vec的另外一種模型是CBOW（Continuous Bag of Words）。關於CBOW此處不再贅述。

7. Negative Sampling

Negative sampling是另外一種有效的求解embedding matrix $E$ 的方法。它的做法是判斷選取的context word和target word是否構成一組正確的context-target對，一般包含一個正樣本和k個負樣本。例如，“orange”為context word，“juice”為target word，很明顯“orange juice”是一組context-target對，為正樣本，相應的target label為1。若“orange”為context word不變，target word隨機選擇“king”、“book”、“the”或者“of”等。這些都不是正確的context-target對，為負樣本，相應的target label為0。一般地，固定某個context word對應的負樣本個數k一般遵循：

若訓練樣本較小，k一般選擇5～20；
若訓練樣本較大，k一般選擇2～5即可。

Negative sampling的數學模型為：

$P(y=1|c,t)=\sigma(\theta^T_t\cdot e_c)$

其中， $\sigma$ 表示sigmoid啟用函式。

很明顯，negative sampling某個固定的正樣本對應k個負樣本，即模型總共包含了k+1個binary classification。對比之前介紹的10000個輸出單元的softmax分類，negative sampling轉化為k+1個二分類問題，計算量要小很多，大大提高了模型運算速度。

最後提一點，關於如何選擇負樣本對應的target單詞，可以使用隨機選擇的方法。但有資料提出一個更實用、效果更好的方法，就是根據該詞出現的頻率進行選擇，相應的概率公式為：

$P(w_i)=\frac{f(w_i)^{\frac34}}{\sum_j^{10000}f(w_j)^{\frac34}}$

其中， $f(w_i)$ 表示單詞 $w_i$ 在單詞表中出現的概率。

8 GloVe word vectors

GloVe演算法引入了一個新的引數：

$X_{ij}$ : 表示i出現在j之前的次數，即i和j同時出現的次數。

其中，i表示context，j表示target。一般地，如果不限定context一定在target的前面，則有對稱關係 $X_{ij}=X_{ji}$ ；如果有限定先後，則 $X_{ij}\neq X_{ji}$ 。接下來的討論中，我們預設存在對稱關係 $X_{ij}=X_{ji}$ 。

GloVe模型的loss function為：

$L=\sum_{i=1}^{10000}\sum_{j=1}^{10000}(\theta_i^Te_j-log X_{ij})^2$

從上式可以看出，若兩個詞的embedding vector越相近，同時出現的次數越多，則對應的loss越小。

為了防止出現“log 0”，即兩個單詞不會同時出現，無相關性的情況，對loss function引入一個權重因子 $f(X_{ij})$ ：

$L=\sum_{i=1}^{10000}\sum_{j=1}^{10000}f(X_{ij})(\theta_i^Te_j-log X_{ij})^2$

當 $X_{ij}=0$ 時，權重因子 $f(X_{ij})=0$ 。這種做法直接忽略了無任何相關性的context和target，只考慮 $X_{ij}>0$ 的情況。

出現頻率較大的單詞相應的權重因子 $f(X_{ij})$ 較大，出現頻率較小的單詞相應的權重因子 $f(X_{ij})$ 較小一些。具體的權重因子 $f(X_{ij})$ 選取方法可查閱相關論文資料。

一般地，引入偏移量，則loss function表示式為：

$L=\sum_{i=1}^{10000}\sum_{j=1}^{10000}f(X_{ij})(\theta_i^Te_j+b_i+b_j’-log X_{ij})^2$

值得注意的是，引數 $\theta_i$ 和 $e_j$ 是對稱的。使用優化演算法得到所有引數之後，最終的 $e_w$ 可表示為：

$e_w=\frac{e_w+\theta_w}{2}$

最後提一點的是，無論使用Skip-Gram模型還是GloVe模型等等，計算得到的embedding matrix $E$ 的每一個特徵值不一定對應有實際物理意義的特徵值，如gender，age等。

9. Sentiment Classification

情感分類一般是根據一句話來判斷其喜愛程度，例如1～5星分佈。如下圖所示：

情感分類問題的一個主要挑戰是缺少足夠多的訓練樣本。而Word embedding恰恰可以幫助解決訓練樣本不足的問題。

首先介紹使用word embedding解決情感分類問題的一個簡單模型演算法。

如上圖所示，這句話的4個單詞分別用embedding vector表示。 $e_{8928},e_{2468},e_{4694},e_{3180}$ 計算均值，這樣得到的平均向量的維度仍是300。最後經過softmax輸出1～5星。這種模型結構簡單，計算量不大，不論句子長度多長，都使用平均的方式得到300D的embedding vector。該模型實際表現較好。

但是，這種簡單模型的缺點是使用平均方法，沒有考慮句子中單詞出現的次序，忽略其位置資訊。而有時候，不同單詞出現的次序直接決定了句意，即情感分類的結果。例如下面這句話：

Completely lacking in good taste, good service, and good ambience.

雖然這句話中包含了3個“good”，但是其前面出現了“lacking”，很明顯這句話句意是negative的。如果使用上面介紹的平均演算法，則很可能會錯誤識別為positive的，因為忽略了單詞出現的次序。

為了解決這一問題，情感分類的另一種模型是RNN。

該RNN模型是典型的many-to-one模型，考慮單詞出現的次序，能夠有效識別句子表達的真實情感。

值得一提的是使用word embedding，能夠有效提高模型的泛化能力，即使訓練樣本不多，也能保證模型有不錯的效能。

10. Debiasing word embeddings

Word embeddings中存在一些性別、宗教、種族等偏見或者歧視。例如下面這兩句話：

Man: Woman as King: Queen

Man: Computer programmer as Woman: Homemaker

Father: Doctor as Mother: Nurse

很明顯，第二句話和第三句話存在性別偏見，因為Woman和Mother也可以是Computer programmer和Doctor。

以性別偏見為例，我們來探討下如何消除word embeddings中偏見。

首先，確定偏見bias的方向。方法是對所有性別對立的單詞求差值，再平均。上圖展示了bias direction和non-bias direction。

$bias\ direction=\frac1N ((e_{he}-e_{she})+(e_{male}-e_{female})+\cdots)$

然後，單詞中立化（Neutralize）。將需要消除性別偏見的單詞投影到non-bias direction上去，消除bias維度，例如babysitter，doctor等。

最後，均衡對（Equalize pairs）。讓性別對立單詞與上面的中立詞距離相等，具有同樣的相似度。例如讓grandmother和grandfather與babysitter的距離同一化。

值得注意的是，掌握哪些單詞需要中立化非常重要。一般來說，大部分英文單詞，例如職業、身份等都需要中立化，消除embedding vector中性別這一維度的影響。

至此，第二節筆記介紹完畢！

更多AI資源請關注公眾號：AI有道（ID：redstonewill）