騰訊word2vec模型縮小版

sunghosts發表於2020-10-28

騰訊開源的word2vec模型。

原版15個G,一般愛好者很難玩出來。

所以做了一些小的。方便大家使用。

5000-small.txt 這個有5000詞,可以下下來玩玩

45000-small.txt 這個有4.5w的詞,已經能解決很多問題了

70000-small.txt 7w詞 133MB https://pan.baidu.com/s/1DprHD8HwEqkWRBG0ss2y1A

100000-small.txt 10w詞 190MB https://pan.baidu.com/s/1KqPOwfrw3KoLJqTsCUdriA

500000-small.txt 50w詞 953MB https://pan.baidu.com/s/1SGwxpGW8HjYw8HdKQUB8Gw

1000000-small.txt 100w詞 1.9GB https://pan.baidu.com/s/1ObstPl7R8o1L98Ag9owGiw

2000000-small.txt 200w詞 3.8GB https://pan.baidu.com/s/1hmCiMandgyedjmP520_Aog

再大就自己去下載吧

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

使用

讀模型

from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format("50-small.txt")

使用

model.most_similar(positive=['女', '國王'], negative=['男'], topn=1)

model.doesnt_match("上海 成都 廣州 北京".split(" "))

model.similarity('女人', '男人')

model.most_similar('川普',topn=10)

相關文章