經常提到的Embedding層有什麼用？

極驗發表於2019-03-27

原文網址 : http://www.jiqizhixin.com/articles/2019-03-27-7

在深度學習實驗中經常會遇Eembedding層,然而網路上的介紹可謂是相當含糊。比如 Keras中文文件中對嵌入層 Embedding的介紹除了一句 “嵌入層將正整數（下標）轉換為具有固定大小的向量”之外就不願做過多的解釋。那麼我們為什麼要使用嵌入層 Embedding呢? 主要有這兩大原因:

1、使用One-hot 方法編碼的向量會很高維也很稀疏。假設我們在做自然語言處理（NLP）中遇到了一個包含2000個詞的字典，當使用One-hot編碼時，每一個詞會被一個包含2000個整數的向量來表示，其中1999個數字是0，如果字典再大一點，這種方法的計算效率會大打折扣。

2、訓練神經網路的過程中，每個嵌入的向量都會得到更新。通過上面的圖片我們就會發現在多維空間中詞與詞之間有多少相似性，這使我們能視覺化的瞭解詞語之間的關係，不僅僅是詞語，任何能通過嵌入層 Embedding 轉換成向量的內容都可以這樣做。

上面說的概念可能還有些不清楚，那我們就舉個例子看看嵌入層 Embedding 對下面的句子怎麼處理的。Embedding的概念來自於word embeddings，如果您有興趣閱讀更多內容，可以查詢 word2vec 。

deep learning is very deep

使用嵌入層embedding 的第一步是通過索引對該句子進行編碼，這裡我們給每一個不同的單詞分配一個索引，上面的句子就會變成這樣：

1、2、3、4、1

接下來會建立嵌入矩陣，我們要決定每一個索引需要分配多少個“潛在因子”，這大體上意味著我們想要多長的向量，通常使用的情況是長度分配為32和50。在這篇文章中，為了保持文章可讀性這裡為每個索引指定6個潛在因子。嵌入矩陣就會變成這樣：

嵌入矩陣

這樣，我們就可以使用嵌入矩陣而不是龐大的one-hot編碼向量來保持每個向量更小。簡而言之，嵌入層embedding在這裡做的就是把單詞“deep”用向量[.32, .02, .48, .21, .56, .15]來表達。然而並不是每一個單詞都會被一個向量來代替，而是被替換為用於查詢嵌入矩陣中向量的索引。其次這種方法面對大資料時也能有效計算。由於在深度神經網路的訓練過程中嵌入向量也會被更新，我們就可以探索在高維空間中哪些詞語之間具有相似性，再通過使用t-SNE 這樣的降維技術就可以將這些相似性視覺化。

不僅是詞嵌入

前面的例子表明，單詞嵌入在自然語言處理領域非常重要。通過單詞嵌入，我們可以使用語言捕捉關係。並且，嵌入層可以用來嵌入比單詞更多的東西。在目前的研究專案中，可使用嵌入層來嵌入使用者線上行為。將索引分配給使用者行為，如“入口網站Y上的頁面型別X的頁面檢視”或“滾動X畫素”。然後，這些索引用於構建一系列使用者行為。

在“傳統”機器學習模型(支援向量機、隨機森林、梯度提升樹)與深度學習模型(深度神經網路、遞迴神經網路)的比較中，我發現這種嵌入方法對於深度神經網路非常有效。

“傳統”機器學習模型依賴於特徵工程的表格輸入。這意味著，作為研究人員，我們決定特徵是什麼。在這種情況下，特徵可能是：訪問的主頁數量、完成的搜尋數量、滑鼠滾動的畫素總量。然而，在進行特徵工程時，很難捕捉空間(時間)維度。通過使用深度學習嵌入層，我們可以通過提供一系列使用者行為(作為索引)作為模型的輸入來有效地捕捉這個空間維度。

在我的研究中，遞迴神經網路表現最好。從“傳統”特徵工程模型來看，梯度提升樹表現最佳。其他研究探索了在MOOCs中使用嵌入層來編碼學生行為( Piech等人.2016 )和電子商務中使用者行為建模( Tamhane等人.2017年)。

深研資料

原文連結：

https://towardsdatascience.com/deep-learning-4-embedding-layers-f9a02d55ac12

word2vec：

https://arxiv.org/pdf/1301.3781.pdf

t-SNE：

https://lvdmaaten.github.io/tsne/

嵌入層編碼學生行為：

https://stanford.edu/~cpiech/bio/papers/deepKnowledgeTracing.pdf

電子商務使用者行為建模：

https://link.springer.com/chapter/10.1007/978-3-319-57529-2_42

關於embedding的理解：

https://towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526

https://www.tensorflow.org/guide/embedding

https://github.com/WillKoehrsen/wikipedia-data-science/blob/master/notebooks/Book%20Recommendation%20System.ipynb

Java 中經常被提到的 SPI 到底是什麼？
2022-12-01
Java
前端開發中提到的“腳手架”到底指什麼，CLI？gulp 和 gulp-cli有什麼區別
2018-10-13
前端
常見的爬蟲型別有什麼？
2022-12-12
爬蟲型別
經常問到的 BFC 和 IFC 是什麼？
2021-04-10
CRM什麼意思？有什麼用？
2020-11-26
FactoryBean有什麼用
2024-09-23
Bean
什麼是高防？有什麼用？
2019-09-12
RDP是什麼意思？有什麼用？
2022-04-11
NLA有什麼用？原理是什麼？
2022-05-26
LDAP是什麼意思？有什麼用？
2021-09-18
LDA
《CSS世界》中提到的實用技巧
2019-04-03
CSS
css--BFC是什麼，有什麼用，怎麼用？
2022-03-28
CSS
Java 中的Exception 有什麼用？
2020-10-26
JavaException
當提到“事件驅動”時，我們在說什麼？
2019-03-13
事件
什麼是異常?python處理異常的方式有幾種?
2022-03-10
Python
Linux的底層語言是什麼?主要特性有哪些?
2023-04-13
Linux
助記詞是什麼，有什麼用？
2018-11-19
根證書是什麼？有什麼用？
2020-04-28
Python是什麼意思?Python有什麼用?
2022-01-22
Python
defer有什麼用呢
2023-05-14
Python client有什麼用
2021-09-11
Pythonclient
[譯] 我經常聽到的 GraphQL 到底是什麼？
2019-03-04
Pycharm有什麼優勢?常見快捷鍵有哪些？
2021-01-11
PyCharm
什麼是智慧數字經營？微火智慧經營有什麼優勢？
2023-02-24
mybatis 中mapper 的namespace有什麼用？
2018-09-16
MyBatisAPPnamespace
JSON是什麼，有什麼用，怎麼寫json
2020-12-02
JSON
騰訊遊戲打破低迷，馬化騰提到的“季票”又是什麼？
2019-08-15
遊戲
電腦經常當機是什麼原因電腦經常當機解決方法
2022-09-30
httpdns是個什麼技術，有什麼用
2022-07-15
httpdDNS
【BGP乾貨】什麼是BGP？有什麼用？
2021-07-14
RFM是什麼？這個模型有什麼用？
2022-12-21
模型
請問getKey()方法是什麼，有什麼用
2022-04-25
快應用是什麼軟體？快應用有什麼用？
2018-03-27
WWDC 中提到的瀏覽器 Fingerprinting 有多可怕？
2018-06-06
瀏覽器
資料庫是什麼意思？有什麼用？有哪些型別？
2021-09-07
資料庫型別
混合雲管理有什麼用？
2019-06-05
02-概念有什麼用？
2024-10-03
列表在python有什麼用
2021-09-11
Python

經常提到的Embedding層有什麼用？

不僅是詞嵌入

推薦系統

深研資料

相關文章