NLP ——Doc2vec

Cater Chen發表於2020-09-30

原文網址 : https://blog.csdn.net/sinat_28375239/article/details/108887947

NLP ——Doc2vec

即使利用word2vec對詞向量進行平均處理，我們仍然忽略了單詞之間的排列順序對情感分析的影響。即上述的word2vec只是基於詞的維度進行”語義分析”的，而並不具有上下文的”語義分析”能力。在一個句子或者文件的訓練過程中，段落 ID 保持不變，共享著同一個段落向量。
在word2vec的基礎上新增一個段落向量。訓練單詞向量W時，也訓練段落向量D，並且在訓練結束時，它包含了段落的向量化表示。雖然單詞向量表示單詞的概念，但段落向量旨在表示段落的概念。
PV-DM

訓練過程中新增了paragraph id，即訓練語料中每個句子都有一個唯一的id。paragraph id和普通的word一樣，也是先對映成一個向量，即paragraph vector。paragraph vector與word vector的維數雖一樣，但是來自於兩個不同的向量空間。在之後的計算裡，paragraph vector和word vector累加或者連線起來，作為輸出層softmax的輸入。在一個句子或者文件的訓練過程中，paragraph id保持不變，共享著同一個paragraph vector，相當於每次在預測單詞的概率時，都利用了整個句子的語義。
在預測階段，給待預測的句子新分配一個paragraph id，詞向量和輸出層softmax的引數保持訓練階段得到的引數不變，重新利用梯度下降訓練待預測的句子。待收斂後，即得到待預測句子的paragraph vector。
PV-DBOW

區別點為：在sentence2vec裡，輸入都是paragraph vector，輸出是該paragraph中隨機抽樣的詞。

該演算法實際上更快（與word2vec相反）並且消耗更少的記憶體，因為不需要儲存詞向量。

在論文中，作者建議使用兩種演算法的組合，儘管PV-DM模型是優越的，並且通常會自己達到最優的結果。

doc2vec模型的使用方式：對於訓練，它需要一組文件。為每個單詞生成詞向量W，併為每個文件生成段落向量D. 該模型還訓練softmax隱藏層的權重。在推理階段，可以呈現新段落，並且固定所有權重以計算段落向量。

相關文章

Doc2vec技術
2019-12-31
動手實踐word2vec和doc2vec模型
2019-03-22
模型
nlp分享
2018-11-09
小白nlp入門基礎（一）--nlp簡介
2018-09-26
NLP與深度學習（一）NLP任務流程
2021-08-24
深度學習
nlp入門
2019-03-05
kaggle course --NLP
2020-12-29
自然語言處理(NLP)簡介 | NLP課程
2019-03-08
自然語言處理
CCF NLP比賽
2018-10-20
nlp語義理解
2018-10-02
NLP學習1
2024-09-16
【NLP】文字情感分析
2023-01-13
阿里NLP總監分享-NLP技術的應用與思考
2018-12-09
阿里
NLP入門資料
2019-03-12
NLP的經典書
2018-07-22
【NLP】常用優化方法
2020-05-25
優化
NLP之中文分詞
2020-10-12
中文分詞
NLP ——句向量表示
2020-09-30
2023nlp影片教程大全 NLP自然語言處理教程自然語言處理NLP從入門到專案實戰
2023-05-05
自然語言處理
【轉載】NLP線上演示
2018-12-17
CNN之於CV和NLP
2018-11-27
CNN
[NLP] 知識抽取技術
2024-09-12
史丹佛NLP課程 | 第11講 - NLP中的卷積神經網路
2022-05-14
卷積神經網路
【譯】如何在每次訓練中都得到相同的word2vec/doc2vec/Paragraph Vectors
2018-11-08
無所不能的embedding 3. word2vec->Doc2vec[PV-DM/PV-DBOW]
2020-10-06
最強NLP預訓練模型！谷歌BERT橫掃11項NLP任務記錄
2018-10-12
模型谷歌
NLP系列學習:資料平滑
2019-02-24
【NLP】BERT中文實戰踩坑
2018-12-06
NLP相關論文綜述
2018-11-26
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HMM在NLP中的應用
2018-04-10
HMM
nlp 中文資料預處理
2019-12-02
系統學習NLP（十六）--DSSM
2019-03-12
SSM
NLP教程(7) - 問答系統
2022-05-11
HanLP使用教程——NLP初體驗
2021-07-15
HanLP
NLP接下來黃金十年-----周明等談值得關注的NLP技術
2019-03-01
清華NLP實驗室劉知遠：如何寫一篇合格的NLP論文
2019-03-11