Word2Vec演算法梳理

极验發表於2019-09-04

原文網址 : https://www.jiqizhixin.com/articles/2019-09-04-14

1.Word2Vec 模型總述

Word2Vec演算法梳理

Word2Vec簡單講其實就是通過學習文字然後用詞向量的方式表徵詞的語義資訊，即通過Embedding 把原先詞所在空間對映到一個新的空間中去，使得語義上相似的單詞在該空間內距離相近。

以傳統神經網路為基礎的神經概率語言模型，缺點主要是計算量太大，集中體現在：隱層和輸出層之間的矩陣運算和輸出層上的Softmax歸一化運算上。

因此 Word2Vec演算法梳理就是針對這兩點來優化神經概率語言模型的。中兩個重要的模型是 CBOW 模型和 Skip-gram 模型。對於這兩個模型，給出了兩套框架，分別是基於Hierarchichal Softmax 和 Negative Sampling 來設計的，本文梳理的是第一種型別。

2.CBOW模型

2.1 基於Hierarchichal Softmax模型的網路結構

CBOW模型的全稱是 Continous bag-of-words，它包括三層結構分別是：輸入層、投影層和輸出層。

1.輸入層：包含 Context(w) 中 2c 個詞的詞向量

Word2Vec演算法梳理其中，n 表示詞向量的長度。

2.投影層：將輸入層的 2c 個向量做求和累加處理，即 Word2Vec演算法梳理

Word2Vec演算法梳理

3.輸出層：輸出層對應一顆 Word2Vec演算法梳理樹，它是以語料中出現過的詞當葉子節點，以各詞在語料庫中出現的次數當權值構造而成。在這顆樹中，葉子結點共N(=|D|) 個分別對應詞典 D 中的詞，非葉結點 N-1 個（上圖中黃色的結點）。

2.2 梯度的計算

為了後續方便描述問題，首先對 Word2Vec演算法梳理模型中用到的符號做一個統一的說明：

:從根節點到出發到達對應葉子結點的路徑；
:從根節點到出發到達對應葉子結點的路徑；
：路徑中的個結點，其中表示根結點，表示詞對應的結點；
，其中：詞對應的編碼，它由位編碼構成，表示路徑中第個結點對應的編碼（根結點不對應編碼）；
，其中：路徑中非葉子結點對應的向量，表示路徑中第個非葉子結點對應的向量。

所以 Word2Vec演算法梳理的思想，即對於詞典中的任意詞 , 樹中必然存在唯一一條從根結點到詞對應葉子結點的路徑。路徑上存在個分支，將每個分支看作一次二分類，那麼每一次分類就對應一個概率，最後將這些概率連乘得到。

Word2Vec演算法梳理

其中 Word2Vec演算法梳理，通過對數極大似然化處理可得模型的目標函式為：

Word2Vec演算法梳理

Word2Vec演算法梳理極大化化目標函式使用的演算法是是隨機梯度上升法，首先考慮關於的梯度計算：

Word2Vec演算法梳理

於是， Word2Vec演算法梳理的更新公式為：然後再考慮關於的梯度計算：

Word2Vec演算法梳理如果觀察到中和具有對稱性，那麼計算相應梯度會更方便。由於表示的是中所有詞向量的疊加，那麼如何根據來更新每一個分量呢？中的做法非常的樸素，直接取

2.3 CBOW模型更新相關引數虛擬碼

Word2Vec演算法梳理

3.Skip-gram模型

3.1 基於Hierarchichal Softmax模型的網路結構

同模型一樣， Word2Vec演算法梳理模型的網路結構也包括三層結構分別是輸入層、投影層和輸出層：

輸入層：只含有當前樣本的中心詞的詞向量。
投影層：該層為恆等投影，其實這層可有可無，在這裡只是為了方便和模型的網路結構做對比：

Word2Vec演算法梳理

3.輸出層：和模型一樣，輸出層也是一顆 Word2Vec演算法梳理樹。

3.2 梯度的計算

對於 Word2Vec演算法梳理模型已知的是當前詞，需要對其上下文中的詞進行預測，所以關鍵是條件概率函式的構造，模型中將其定義為：

上式中的 Word2Vec演算法梳理可以類比上節介紹的的思想，因此可得：

通過對數極大似然化處理可得 Word2Vec演算法梳理模型的目標函式為：

首先考慮

Word2Vec演算法梳理

關於

Word2Vec演算法梳理

的梯度計算：

Word2Vec演算法梳理

於是，

Word2Vec演算法梳理

的更新公式為：

Word2Vec演算法梳理

然後再考慮

Word2Vec演算法梳理

對關於

Word2Vec演算法梳理

的梯度計算（亦可根據對稱性直接得出）：

Word2Vec演算法梳理

於是，

Word2Vec演算法梳理

的更新公式為：

Word2Vec演算法梳理

3.3 skip-gram模型更新相關引數虛擬碼

Word2Vec演算法梳理

4. 總結

Word2Vec的基本功能就是把自然語言中的每一個詞，表示成一個統一意義統一維度的詞向量，因為只有把自然語言轉化為向量的形式，才能在此之上構建相關的演算法，至於向量中的每個維度具體是什麼含義，無人知曉，也無需知曉，有道是，玄之又玄，眾妙之門矣！

如果你覺得有幫助的話，歡迎點個贊，比心❤️！

相關文章

隨機森林演算法梳理
2019-03-01
隨機森林演算法
Word2Vec
2024-11-24
【知識】圖論朱劉演算法梳理
2024-12-01
圖論演算法
word2vec的理解
2018-11-15
Word2Vec模型之CBOW
2024-08-11
模型
NLP：Gensim庫之word2vec
2018-12-30
Word2Vec實驗淺嘗
2020-11-23
【資料結構與演算法】揹包問題總結梳理
2020-07-31
資料結構演算法
Activity梳理
2018-09-04
RxJava梳理
2019-02-18
RxJava
騰訊word2vec模型縮小版
2020-10-28
模型
Jshop流程梳理
2019-04-04
JS
JavaScript原型梳理
2018-05-12
JavaScript原型
React Hooks 梳理
2019-02-20
ReactHook
index_oracle索引梳理系列及分割槽表梳理
2018-11-08
IndexOracle索引
基於word2vec訓練詞向量(一)
2018-04-11
Word2vec中的連續詞袋 (CBOW)
2024-03-13
詞向量表示：word2vec與詞嵌入
2020-04-25
Word2Vec究竟選擇Tensorflow還是gensim
2018-03-30
系統梳理主流定時器演算法實現的差異以及應用
2020-06-08
定時器演算法
Mysql知識梳理
2019-02-16
MySql
Flex Box 概念梳理
2018-11-01
Flex
MyBatis sqlSession概要梳理
2018-08-29
MyBatisSQLSession
Python知識梳理
2018-09-03
Python
React render流程梳理
2019-05-11
React
web知識梳理
2019-04-24
Web
webpack 知識梳理
2018-04-19
Web
面經梳理-spring
2024-07-10
Spring
面經梳理-mysql
2024-06-26
MySql
css常用技巧梳理
2023-03-08
CSS
SpringBoot 整合 SpringSecurity 梳理
2021-08-24
Spring BootGse
redis基礎梳理
2021-05-27
Redis
SpringBoot簡單梳理
2020-12-05
Spring Boot
JavaWeb知識梳理
2020-12-06
JavaWeb
http快取梳理
2020-12-11
HTTP快取
使用Python視覺化Word2vec的結果
2020-09-29
Python視覺化
【詞向量表示】Word2Vec原理及實現
2024-12-04
通俗易懂講解Word2vec的本質
2021-09-07