詞向量入門

胖墩哥發表於2020-05-27

原文網址 : https://www.cnblogs.com/jimlau/p/12976617.html

詞向量

one hot 編碼

在自然語言處理中，為了將自然語言轉化為計算機所能識別的語言，就要對它重新編碼，起初使用one hot編碼。

一共能產生14901維。

問題：佔用太大空間，詞和詞之間的相識度無法體現。也就是所說的稀疏化。

one hot程式碼如下：

from sklearn.preprocessing import OneHotEncoder
# lables = ['ni','號','ni','meimei']
lables = [0,1,0,4]
lables = np.array(lables).reshape(len(lables),-1)
enc =   OneHotEncoder()
enc.fit(lables)
target = enc.transform(lables).toarray()

print(target)

詞向量編碼思想

我們需要將上面的one hot 編碼轉化為如圖所示的編碼：

主要有兩種假說，今天我們只談當今的主流思想： Distributed models

Word2Vec

Word2vec 是程式碼專案的名字，只是計算詞嵌入（word embedding）的一個工具，是CBOW和Skip-Gram這兩個模型的合體，目前這套工具完全開源。

CBOW是利用詞的上下文預測當前的單詞；而Skip-Gram則是利用當前詞來預測上下文。

Word2Vec程式碼

# 訓練模型定義
from gensim.models import Word2Vec
model = Word2Vec(sentences, sg=1, size=100,  window=5,  min_count=5,  negative=3, sample=0.001, hs=1, workers=4)

# 訓練後的模型儲存與載入
model.save("model_name")

# 載入模型
model = Word2Vec.load("model_name")

# 模型的使用

#詞向量加減
model.most_similar(positive=['woman', 'king'], negative=['man'])
#輸出[('queen', 0.50882536), ...]
    
# 尋找指定詞語最相似的詞語
print model.most_similar('morning', topn=1)


model.doesnt_match("breakfast cereal dinner lunch".split())
#輸出'cereal'
 
# 計算詞語的相似度
model.similarity('woman', 'man')
#輸出0.73723527
 
model['computer']  # raw numpy vector of a word
#輸出array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

Word2Vec引數描述：

1.sg=1是skip-gram演算法，對低頻詞敏感；預設sg=0為CBOW演算法。

2.size是輸出詞向量的維數，值太小會導致詞對映因為衝突而影響結果，值太大則會耗記憶體並使演算法計算變慢，一般值取為100到200之間。

3.window是句子中當前詞與目標詞之間的最大距離，3表示在目標詞前看3-b個詞，後面看b個詞（b在0-3之間隨機）。

4.min_count是對詞進行過濾，頻率小於min-count的單詞則會被忽視，預設值為5。

5.negative和sample可根據訓練結果進行微調，sample表示更高頻率的詞被隨機下采樣到所設定的閾值，預設值為1e-3。

6.hs=1表示層級softmax將會被使用，預設hs=0且negative不為0，則負取樣將會被選擇使用。

7.workers控制訓練的並行，此引數只有在安裝了Cpython後才有效，否則只能使用單核。

Embedding

Word2Vec中從輸入到隱層的過程就是Embedding的過程。 Embedding的過程就是把多維的onehot進行降維的過程，是個深度學習的過程。滿足：

嵌入層向量長度可設定
對映過程是全連線
嵌入層的值可訓練
由高維度對映到低緯度，減少引數量

參考部落格：Word2VecEmbeddingSkip-gram的原理負取樣

入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
android 入門- 詞彙
2020-04-04
Android
Milvus向量資料庫入門實踐
2024-05-21
資料庫
詞向量word to vector通俗理解
2020-11-01
elasticsearch高亮之詞項向量
2022-03-15
Elasticsearch
Elasticsearch和向量資料庫的快速入門
2024-09-15
Elasticsearch資料庫
向量資料庫Chromadb的入門資訊
2024-07-06
資料庫
詞向量表示：word2vec與詞嵌入
2020-04-25
《R語言入門與資料分析》——向量索引
2020-10-02
R語言索引
【詞向量表示】Item2Vec、DeepWalk、Node2vec、EGES詞向量生成演算法
2024-12-05
演算法
ES 入門 - 基於詞項的查詢
2020-10-01
怎樣生成一個好的詞向量
2018-06-16
親手做的詞向量分佈圖
2024-08-05
利用詞向量進行推理（Reasoning with word vectors）
2022-01-22
LLM中詞向量的表示和詞嵌入的一些疑問
2024-10-13
文字資料分析——主題提取+詞向量化
2020-10-20
OpenGL/OpenGL ES 入門：基礎變換 - 初識向量/矩陣
2019-05-19
矩陣
Spark入門（三）--Spark經典的單詞統計
2019-02-27
Spark
Elasticsearch從入門到放棄：分詞器初印象
2020-06-29
Elasticsearch分詞
基於word2vec訓練詞向量(一)
2018-04-11
淺談文字詞向量轉換的機制embedding
2018-03-12
NLP入門學習中關於分詞庫HanLP匯入使用教程
2021-04-16
分詞HanLP
構建RAG應用-day01: 詞向量和向量資料庫文件預處理
2024-04-17
資料庫
JS正規表示式從入門到入土（5）—— 量詞
2018-07-04
JS
面向機器智慧的TensorFlow實戰7：詞向量嵌入
2018-05-26
GitHub上中文詞向量（Chinese Word Vectors）的下載地址
2020-10-10
Github
NLP《詞彙表示方法（一）one-hot向量表示》
2020-11-01
【詞向量表示】Word2Vec原理及實現
2024-12-04
如何將中文文件語料訓練成詞向量
2020-12-22
seo入門怎麼快速挖掘使用者需求關鍵詞
2020-01-17
UWP WinUI 製作一個路徑向量圖示按鈕樣式入門
2024-07-07
UI
手把手教你用飛槳做詞向量模型 SkipGram
2019-09-17
模型
NLP教程(2) | GloVe及詞向量的訓練與評估
2022-05-01
將使用jieba分詞的語料庫轉化成TFIDF向量
2020-12-09
Jieba分詞
NLP入門（九）詞義消岐（WSD）的簡介與實現
2019-05-12
神經網路入門篇：詳解多樣本向量化（Vectorizing across multiple examples）
2023-11-13
神經網路ROS
亂燉“簡書交友”資料之程式碼（2）：關鍵詞抽取、Word2Vec詞向量
2018-06-16
入門入門入門 MySQL命名行
2020-12-15
MySql

詞向量入門

詞向量

one hot 編碼

詞向量編碼思想

Word2Vec

Embedding

相關文章