NLP 科研資料推薦

CopperDong發表於2017-12-14

博士論文推薦

中科院 來斯惟 《基於神經網路的詞和文件語義向量表示方法研究》

內容摘要如下 
一、詞向量表示技術的理論及實驗分析。在這一部分中,本文對現有的詞向量表示技術進行了系統的理論對比及實驗分析。理論方面,本文闡述了現有各種模型之間的聯絡,從模型的結構與目標等方面對模型進行了比較,並證明了其中最重要的兩個模型Skip-gram與GloVe之間的關係。實驗方面,本文從模型、語料和訓練引數三個角度分析了訓練詞向量的關鍵技術。本文選取了三大類一共八個指標對詞向量進行評價,這三大類指標涵蓋了現有的詞向量用法。本工作為首個對詞向量進行系統評價的工作,通過理論和實驗的比較分析,文章提出了一些對生成詞向量的參考建議。 
  二、基於字詞聯合訓練的中文表示及應用。現有的中文表示技術往往沿用了英文的思路,直接從詞的層面對文字表示進行構建。本文根據中文的特點,提出了基於字詞聯合訓練的表示技術。該方法在字的上下文空間中融入了詞,利用詞的語義空間,更好地對漢字建模;同時利用字的平滑效果,更好地對詞建模。文章在分詞任務、詞義相似度任務和文字分類任務上對字和詞的表示進行了評價,實驗表明字詞聯合訓練得到的字詞向量,相比單獨訓練字向量或詞向量,有顯著的提升。 
  三、基於迴圈卷積網路的文件表示及應用。在這一部分中,本文分析了現有的文件表示技術:基於迴圈網路的表示技術、基於遞迴網路的表示技術和基於卷積網路的表示技術。並且,針對現有的三種表示技術的不足,本文提出了基於卷積迴圈網路的文件表示技術。該方法克服了此前遞迴網路的複雜度過高的問題,迴圈網路的語義偏置問題,以及卷積網路視窗較難選擇的問題。文章在文字分類任務上對新提出的表示技術進行了對比分析,實驗表明基於迴圈卷積網路的文字表示技術比現有的表示技術能取得更好的效能。

哈工大 戶保田《基於深度神經網路的文字表示及其應用》

以深度神經網路為手段,以文字表示為研究物件,對自然語言中不同粒度的文字即詞、句、段的表示學習及其應用進行了深入研究。本文將所提出的方法應用到了序列標註、語句匹配、機器翻譯以及自動文摘生成問題上,並取得了良好的效果 
部分摘要如下:首先,對詞向量的學習進行了研究。提出了一種基於動名分離的詞向量學習模型。該模型將詞性引入到詞向量的學習過程,同時保持了詞序資訊。受人類大腦的動名分離結構的啟發,在學習詞向量的過程中,該模型根據詞性標註工具得到的詞性,動態的選擇模型頂層的網路引數,從而實現模型的動名分離。與相關向量學習方法進行實驗對比,結果顯示該模型能夠以相對較低的時間複雜度,學習得到高質量的詞向量;通過其得到的常見詞的相似詞更為合理;在命名實體識別和組塊分析任務上的效能,顯著地優於其它對比的詞向量。其次,對語句的表示學習進行了研究。提出了基於深度卷積神經網路的語句表示模型。該模型不依賴句法分析樹,通過多層交疊的卷積和最大池化操作對語句進行建模。語句匹配對自然語言處理領域的大量任務非常重要。一個好的匹配模型,不僅需要對語句的內部結構進行合理建模,還需要捕捉到語句間不同層次的匹配模式。基於此,本文提出了兩種基於深度卷積神經網路的語句匹配架構。架構一,首先通過兩個卷積神經網路分別對兩個語句進行表示,然後通過多層感知機進行匹配。架構二,則是對兩個語句的匹配直接建模,然後通過多層感知機對匹配表示進行打分。兩種匹配架構都無需任何先驗知識,因此可被廣泛應用於不同性質、不同語言的匹配任務上。在三種不同語言、不同性質的語句級匹配任務上的實驗結果表明,本文提出的架構一和架構二遠高於其他對比模型。相比架構一,架構二更能夠有效地捕捉到兩個語句間多層次的匹配模式,架構二在三種任務上取得了優異的效能。第三,對統計機器翻譯中短語對的選擇進行了研究。提出了上下文依賴的卷積神經網路短語匹配模型。該模型對目標短語對進行選擇,不僅考慮到了源端短語與目標端短語的語義相似度,同時利用了源端短語的句子上下文資訊。為了有效的對模型進行訓練,提出使用上下文依賴的雙語詞向量初始化模型,同時設計了一種“課程式”的學習演算法對模型進行從易到難、循序漸進的訓練。實驗表明,將該模型對雙語短語的匹配打分融入到一個較強的統計機器翻譯系統中,可以顯著提高翻譯效能,BLEU值提高了1.0%。對自動生成進行了研究。構建了一個較高質量的大規模中文短文字摘要資料集,該資料集包括240多萬的摘要,同時構造了一個高質量的測試集。提出使用基於迴圈神經網路的編碼-解碼架構從大規模資料集中自動學習生成摘要,構建了兩個基於迴圈神經網路的摘要生成模型。模型一通過使用迴圈神經網路對原文進行建模,並將其最後一個狀態作為原文段落的表示,利用另一個迴圈神經網路從該表示中解碼生成摘要。模型二在模型一的基礎上,通過動態的從編碼階段的迴圈神經網路的所有狀態中綜合得到上下文表示,然後將當前的上下文表示傳遞給解碼迴圈神經網路生成摘要。兩種模型都是產生式模型,無需任何人工特徵。實驗表明,兩種模型能夠對原文進行較為合理的表示,生成具有較高資訊量的摘要文字。特別地,模型二生成的摘要文字質量顯著優於模型一。

gitxiv 網站

http://www.gitxiv.com 一個post頂級論文以及開源實現的網站 
關注其中一個關於attention model的子專案

詞性標註

基於CNN和LSTM混合模型的中文詞性標註## 標題 ## 
本文采用PFR《人民日報》1998年1月份的語料庫 (http://www.icl.pku.edu.cn/icl_res/) 、CoNLL09 (http://ufal.mff.cuni.cz/conll2009-st/index.html) 和CTB7.0 (https://catalog.ldc.upenn.edu/LDC2010T07) 作為實驗資料 
在未加入任何人工特徵的條件下,對詞語進行詞性標註,詞性標註效果好於HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.

語料庫

中文文字語料庫整理推薦

相關文章