在word2vec原理篇中,我們對word2vec的兩種模型CBOW和Skip-Gram,以及兩種解法Hierarchical Softmax和Negative Sampling做了總結。這裡我們就從實踐的角度,使用gensim來學習word2vec。
1. gensim安裝與概述
gensim是一個很好用的Python NLP的包,不光可以用於使用word2vec,還有很多其他的API可以用。它封裝了google的C語言版的word2vec。當然我們可以可以直接使用C語言版的word2vec來學習,但是個人認為沒有gensim的python版來的方便。
安裝gensim是很容易的,使用"pip install gensim"即可。但是需要注意的是gensim對numpy的版本有要求,所以安裝過程中可能會偷偷的升級你的numpy版本。而windows版的numpy直接裝或者升級是有問題的。此時我們需要解除安裝numpy,並重新下載帶mkl的符合gensim版本要求的numpy,下載地址在此:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy。安裝方法和scikit-learn 和pandas 基於windows單機機器學習環境的搭建這一篇第4步的方法一樣。
安裝成功的標誌是你可以在程式碼裡做下面的import而不出錯:
from gensim.models import word2vec
2. gensim word2vec API概述
在gensim中,word2vec 相關的API都在包gensim.models.word2vec中。和演算法有關的引數都在類gensim.models.word2vec.Word2Vec中。演算法需要注意的引數有:
1) sentences: 我們要分析的語料,可以是一個列表,或者從檔案中遍歷讀出。後面我們會有從檔案讀出的例子。
2) size: 詞向量的維度,預設值是100。這個維度的取值一般與我們的語料的大小相關,如果是不大的語料,比如小於100M的文字語料,則使用預設值一般就可以了。如果是超大的語料,建議增大維度。
3) window:即詞向量上下文最大距離,這個引數在我們的演算法原理篇中標記為$c$,window越大,則和某一詞較遠的詞也會產生上下文關係。預設值為5。在實際使用中,可以根據實際的需求來動態調整這個window的大小。如果是小語料則這個值可以設的更小。對於一般的語料這個值推薦在[5,10]之間。
4) sg: 即我們的word2vec兩個模型的選擇了。如果是0, 則是CBOW模型,是1則是Skip-Gram模型,預設是0即CBOW模型。
5) hs: 即我們的word2vec兩個解法的選擇了,如果是0, 則是Negative Sampling,是1的話並且負取樣個數negative大於0, 則是Hierarchical Softmax。預設是0即Negative Sampling。
6) negative:即使用Negative Sampling時負取樣的個數,預設是5。推薦在[3,10]之間。這個引數在我們的演算法原理篇中標記為neg。
7) cbow_mean: 僅用於CBOW在做投影的時候,為0,則演算法中的$x_w$為上下文的詞向量之和,為1則為上下文的詞向量的平均值。在我們的原理篇中,是按照詞向量的平均值來描述的。個人比較喜歡用平均值來表示$x_w$,預設值也是1,不推薦修改預設值。
8) min_count:需要計算詞向量的最小詞頻。這個值可以去掉一些很生僻的低頻詞,預設是5。如果是小語料,可以調低這個值。
9) iter: 隨機梯度下降法中迭代的最大次數,預設是5。對於大語料,可以增大這個值。
10) alpha: 在隨機梯度下降法中迭代的初始步長。演算法原理篇中標記為$\eta$,預設是0.025。
11) min_alpha: 由於演算法支援在迭代的過程中逐漸減小步長,min_alpha給出了最小的迭代步長值。隨機梯度下降中每輪的迭代步長可以由iter,alpha, min_alpha一起得出。這部分由於不是word2vec演算法的核心內容,因此在原理篇我們沒有提到。對於大語料,需要對alpha, min_alpha,iter一起調參,來選擇合適的三個值。
以上就是gensim word2vec的主要的引數,下面我們用一個實際的例子來學習word2vec。
3. gensim word2vec實戰
我選擇的《人民的名義》的小說原文作為語料,語料原文在這裡。
完整程式碼參見我的github: https://github.com/ljpzzz/machinelearning/blob/master/natural-language-processing/word2vec.ipynb
拿到了原文,我們首先要進行分詞,這裡使用結巴分詞完成。在中文文字挖掘預處理流程總結中,我們已經對分詞的原理和實踐做了總結。因此,這裡直接給出分詞的程式碼,分詞的結果,我們放到另一個檔案中。程式碼如下, 加入下面的一串人名是為了結巴分詞能更準確的把人名分出來。
# -*- coding: utf-8 -*- import jieba import jieba.analyse jieba.suggest_freq('沙瑞金', True) jieba.suggest_freq('田國富', True) jieba.suggest_freq('高育良', True) jieba.suggest_freq('侯亮平', True) jieba.suggest_freq('鍾小艾', True) jieba.suggest_freq('陳岩石', True) jieba.suggest_freq('歐陽菁', True) jieba.suggest_freq('易學習', True) jieba.suggest_freq('王大路', True) jieba.suggest_freq('蔡成功', True) jieba.suggest_freq('孫連城', True) jieba.suggest_freq('季昌明', True) jieba.suggest_freq('丁義珍', True) jieba.suggest_freq('鄭西坡', True) jieba.suggest_freq('趙東來', True) jieba.suggest_freq('高小琴', True) jieba.suggest_freq('趙瑞龍', True) jieba.suggest_freq('林華華', True) jieba.suggest_freq('陸亦可', True) jieba.suggest_freq('劉新建', True) jieba.suggest_freq('劉慶祝', True) with open('./in_the_name_of_people.txt') as f: document = f.read() #document_decode = document.decode('GBK') document_cut = jieba.cut(document) #print ' '.join(jieba_cut) //如果列印結果,則分詞效果消失,後面的result無法顯示 result = ' '.join(document_cut) result = result.encode('utf-8') with open('./in_the_name_of_people_segment.txt', 'w') as f2: f2.write(result) f.close() f2.close()
拿到了分詞後的檔案,在一般的NLP處理中,會需要去停用詞。由於word2vec的演算法依賴於上下文,而上下文有可能就是停詞。因此對於word2vec,我們可以不用去停詞。
現在我們可以直接讀分詞後的檔案到記憶體。這裡使用了word2vec提供的LineSentence類來讀檔案,然後套用word2vec的模型。這裡只是一個示例,因此省去了調參的步驟,實際使用的時候,你可能需要對我們上面提到一些引數進行調參。
# import modules & set up logging import logging import os from gensim.models import word2vec logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt') model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=3,size=100)
模型出來了,我們可以用來做什麼呢?這裡給出三個常用的應用。
第一個是最常用的,找出某一個詞向量最相近的詞集合,程式碼如下:
req_count = 5 for key in model.wv.similar_by_word('沙瑞金'.decode('utf-8'), topn =100): if len(key[0])==3: req_count -= 1 print key[0], key[1] if req_count == 0: break;
我們看看沙書記最相近的一些3個字的詞(主要是人名)如下:
第二個應用是看兩個詞向量的相近程度,這裡給出了書中兩組人的相似程度:
print model.wv.similarity('沙瑞金'.decode('utf-8'), '高育良'.decode('utf-8')) print model.wv.similarity('李達康'.decode('utf-8'), '王大路'.decode('utf-8'))
輸出如下:
第三個應用是找出不同類的詞,這裡給出了人物分類題:
print model.wv.doesnt_match(u"沙瑞金 高育良 李達康 劉慶祝".split())
word2vec也完成的很好,輸出為"劉慶祝"。
以上就是用gensim學習word2vec實戰的所有內容,希望對大家有所幫助。
(歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com)