gensim匯入pytorch embedding

qq_43645301發表於2020-09-24

gensim 匯入model方法

- gensim 匯入word2vec模型
- gensim 構建pytorch的預訓練embedding

gensim 匯入word2vec模型

使用KeyedVector.load_word2vec_format() ，這樣將模型載入到一個keyvector例項中

import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True)

此處匯入了 word2vec的模型，vectors.bin是模型檔案

如果是glove檔案應該怎麼辦呢
如果我們的glove檔案是一個txt檔案，那麼就需要將它轉成word2vec的形式

import gensim
glove_file = 'test_glove.txt'
word2vec_file = 'word2vec.txt'#這是轉換後的檔名
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_file, word2vec_file )

# 載入轉化後的檔案
model = KeyedVectors.load_word2vec_format(tmp_file) #這樣就可以將glove檔案載入

也可以將glove檔案儲存使用save_word2vec_format儲存詞向量檔案

model.wv.save_word2vec_format("model.bin", binary=True)

下次載入時，直接從model.bin中獲取即可。

gensim 構建pytorch的預訓練embedding

首先，一般可以統計出我們的訓練語料的詞表vocab，將它與gensim載入的詞表求交集，這樣可以減少embedding的大小
匯入pytorch nn.embedding的程式碼

def creat_embedding():#注意要先確定好訓練語料裡面有的單詞
    word_vectors =torch.randn([vocab_size,300])# 這裡的vocab_size 是指 訓練語料的vocabsize
    word_to_idx = train_word2idx
    word_vectors[1,:] = torch.zeros([1,300]) # 這裡是讓 第1個向量成為0向量，此處是<pad>
    for i in range(2,vocab_size):
        
        word = train_idx2word[i]
        if word in wvmodel:

            vector = wvmodel[word]
            word_vectors[i,:] = torch.from_numpy(vector)
            
    print(word_vectors.size())
    #embedding = nn.Embedding.from_pretrained(word_vectors)
    
    #embedding.weight.requires_grad = True
    return word_vectors,word_to_idx  #最終輸出一個詞表和一個arrary 用於輸入embedding

最後使用nn.Embedding.from_pretrained(weight) weight 需要是tensor

pytorch中nn.Embedding理解
2020-11-28
PyTorch
Pytorch之Embedding與Linear的愛恨糾葛
2023-02-13
PyTorch
001-深度學習Pytorch環境搭建(Anaconda , PyCharm匯入)
2021-03-02
深度學習PyTorchPyCharm
Linux下安裝Gensim
2018-10-22
Linux
構建RAG應用-day03: Chroma入門本地embedding 智譜embedding
2024-04-23
Pytorch入門-Transforms
2024-03-13
PyTorchORM
Pytorch Dataset入門
2024-04-16
PyTorch
Pytorch入門-dataloader
2024-03-14
PyTorch
Activity 流程模型匯入匯出-activity流程模型匯入匯出
2024-03-08
模型
Mysql匯入&匯出
2018-12-12
MySql
doris匯入匯出
2024-03-14
esayExcel匯入匯出
2024-11-05
Excel
【Pytorch教程】迅速入門Pytorch深度學習框架
2024-08-26
PyTorch深度學習框架
Pytorch入門演練
2018-12-19
PyTorch
pytorch入門（七）：unsqueeze
2020-11-14
PyTorch
Pytorch入門下 —— 其他
2021-12-16
PyTorch
vue excel匯入匯出
2019-03-07
VueExcel
navlicat 匯入匯出SQL
2022-11-05
SQL
Oracle資料庫匯入匯出。imp匯入命令和exp匯出命令
2022-03-01
Oracle資料庫
MySQL入門--匯出和匯入資料
2019-06-04
MySql
Embedding flow
2024-08-21
MATLAB匯入txt和excel檔案技巧彙總：批量匯入、單個匯入
2021-07-04
MatlabExcel
EasyExcel匯入
2020-12-15
Excel
Angular Excel 匯入與匯出
2019-04-17
AngularExcel
sqoop資料匯入匯出
2018-09-10
OOP
Oracle 資料匯入匯出
2018-06-14
Oracle
Excel匯入匯出神器（Java）
2020-09-28
ExcelJava
資料泵匯出匯入
2019-02-01
.net6 匯入匯出
2024-06-26
Oracle資料匯入匯出
2024-07-23
Oracle
phpMyAdmin匯入/匯出資料
2024-11-27
PHP
【docker】docker映象匯出匯入
2024-05-25
Docker
使用Gensim進行主題建模（二）
2019-04-14
使用Gensim進行主題建模(一)
2019-04-11
NLP：Gensim庫之word2vec
2018-12-30
ASP.NET 開源匯入匯出庫Magicodes.IE 完成Csv匯入匯出
2020-05-14
ASP.NET
code embedding研究系列一-基於token的embedding
2020-12-26
【輪子】EasyExcel，簡易版匯入、匯入 Excel、CSV
2018-06-20
Excel

gensim匯入pytorch embedding

gensim 匯入model方法

gensim 匯入word2vec模型

gensim 構建pytorch的預訓練embedding

相關文章