NLP ——句向量表示

Cater Chen發表於2020-09-30

NLP ——句向量表示

  • 基於Word2vec
    (1) 在這裡插入圖片描述
    (2)
    在這裡插入圖片描述
  • 基於GloVe
    GloVe詞向量模型融合了全域性矩陣分解方法(Matrix Factorization)和區域性文字框捕捉方法(word2vec),是一種用於獲得單詞向量表示的無監督學習演算法。
    Gensim載入GloVe訓練的詞向量
  • Doc2Vec(Gensim)
    Doc2vec是在Word2vec的基礎上做出的改進,它不僅考慮了詞和詞之間的語義,也考慮了詞序。
    Doc2Vec有兩種模型,分別為:句向量的分佈記憶模型(PV-DM: Distributed Memory Model of Paragraph Vectors)和句向量的分佈詞袋(PV-DBOW: Distributed Bag of Words version of Paragraph Vector)。
  • Fasttext
    Fasttext可以實現高效學習單詞表示和句子分類;Fasttext是一個快速文字分類演算法,與基於神經網路的分類演算法相比有兩大優點:
    • Fasttext在保持高精度的情況下加快了訓練速度和測試速度
    • Fasttext不需要預訓練好的詞向量,Fasttext會自己訓練詞向量

相關文章