在 EMNLP 2018 中,針對短文字的處理,騰訊 AI Lab 釋出了 論文 Topic Memory Networks for Short Text Classification。這篇論文由騰訊 AI Lab 主導,與香港中文大學合作完成。本文是主題模型與文字分類在神經網路框架下的一次結合,作為主題模型與深度學習聯合訓練的一個早期的探索,能夠很自然地被擴充套件到很多深度學習任務的上。
論文:Topic Memory Networks for Short Text Classification
論文連結:https://arxiv.org/pdf/1809.03664.pdf
短文字分類 (Short Text Classification)
短文字因為其內容簡短、易於閱讀和傳播的特性作為資訊互動的載體廣泛存在,例如新聞標題、社交媒體的資訊、簡訊等等,因此如何讓機器自動而高效地理解短文字一直是自然語言處理的重要任務,而文字分類作為文字理解的基礎任務、能夠服務於大量的下游應用(例如文字摘要、情感分析、推薦系統等等),更是長期以來學術界與工業界關注的焦點。然而,短文字分類任務本身又十分困難,這其中的原因主要來自文字的內容簡短而引起資料稀疏性問題,從而導致了模型分類的時候沒有足夠的特徵進行類別的判斷。為了理解短文字分類的挑戰,表 1 展示了一個 Twitter(推特)上的一個短文字分類例子。
表 1:Twitter 上文字分類的例子。
R1 和 R2 都是訓練樣本分別屬於 Super Bowl (超級碗) 以及 New Music Live(新音樂盛典)類別,S 是測試樣本屬於 New Music Live 類別,但是僅僅從給定的 11 個單詞,很難判斷出 S 與新音樂盛典的關係。但是 R2 中 wristband(手環)與 Bieber(比伯)的共現極大地豐富了 wristband 的語義,將 wristban\d 與 New Music Live 關聯起來,因為當時 Twitter 上支援 Bieber 送手環的活動使得訓練語料中 wristband 和 Bieber 在 New Music Live 類別的 tweets 中大量共現。如果模型能夠定位到 wristband 是一個關鍵的詞,就更容易判斷出測試樣本 S 應該被分類為 New Music Live,否則的話,S 很有可能被錯誤分類為 Super Bowl,因為其與 R1 大部分的詞都是重合的。
主題記憶網路 (Topic Memory Networks)
Topic Model(主題模型)的要旨是基於詞在文章中的共現關係,從大量的詞彙中找出主題詞(例如 S 中的 wristbands),這部分主題詞在一部分的文章中經常出現,但並不似常用詞一般在大部分文章中都頻繁出現。因為主題詞的這種特性,相較於低頻詞或常用詞,往往能更好地指明文字的類別。因此,過去的工作已經證明,用主題模型學出的主題表示,能夠有效地提高文字分類的效能。然而,目前的大多數文字分類任務在用到主題表示的時候,往往採用兩步走的方法,先訓練好主題模型,然後將主題模型輸出的主題表示去初始化文字分類的特徵空間。近期,Neural Topic Model(神經主題模型:https://arxiv.org/pdf/1706.00359.pdf)的提出,使得主題模型與大量的深度學習任務能夠在多工學習 (multi-task learning) 的框架下被聯合訓練,本文以深度學習最基礎的任務——文字分類作為這種新的訓練模式的一個初期的探索,提出了一種新的網路模型 Topic Memory Networks(主題記憶網路),網路結構如圖 1 所示。
圖 1:主題記憶網路的框架圖。從左到右分別是神經主題模型、主題記憶機制與文字分類器。
主題記憶網路一共可以分為三部分,從左到右分別是 Neural Topic Model (神經主題模型)、Topic Memory Mechanism(主題記憶機制)、以及 Classifier(文字分類器)。其中,神經主題模型主要用於學習主題表示;主題記憶機制主要用於將學到的主題表示對映到對文字分類有用的特徵空間當中;文字分類器主要用於輸出文字分類標籤,可以適配多種分類器(例如卷積神經網路(CNN)或迴圈神經網路(RNN)),因為 CNN 在之前的的工作中被證明對文字分類更有效,因此在本文對於主題記憶網路的實驗探索(將於下文重點討論)中,我們選擇 CNN 作為文字分類器。
為了實現主題模型與文字分類的聯合訓練,主題記憶網路的損失函式為主題模型的訓練目標 variational lower-bound 以及文字分類器的訓練目標 cross-entropy 的加權和。
實驗分析
為了探索主題記憶網路對短文字分類的效能,本文選擇了四個基準資料集,分別為:TagMyNews 新聞標題、Snippets 搜尋片段、Twitter 和 Weibo(新浪微博),四個資料集的統計資訊如表 2 所示。
表 2:實驗資料集詳細資訊。
本文選擇了當下最好的短文字分類模型與主題記憶網路的效能進行了比較,在四個實驗資料集的實驗結果如表 3 所示,從實驗結果中可以看出,主題記憶網路在四個資料集上都顯著提升了 state-of-the-art 的效能。
表 3:主題記憶網路與比較模型的實驗結果。TMN 表示主題記憶網路:TMN (Separate TM inference) 表示先預訓練好神經主題模型,之後把其輸出的主題表示初始化主題記憶機制來進行文字分類。TMN (Joint TM inference) 表示神經主題模型與文字分類聯合訓練。兩個版本的主題記憶網路的結果顯著高於所有的比較模型(p<0.05 paired t-test)。
考慮到主題記憶網路能夠對主題模型與文字分類進行聯合訓練,那麼主題模型是否能夠獲益於這種多工訓練,以學到更有意義的表示呢?本文對主題模型的輸出進行了定量與定性的分析。在定量分析中,被廣泛使用的 CV coherence 分數 (https://github.com/dice-group/Palmetto) 作為評測指標,比較模型包括經典的主題模型 LDA、短文字主題模型中的 state-of-the-art 模型 BTM、以及神經主題模型 NTM,越高的分數說明學到的 topic 表示越有意義,實驗結果如表 3 所示,定量實驗結果說明,透過與文字分類聯合訓練,主題模型也能夠學到更有意義的主題表示。
為了探索為什麼主題記憶網路能取得更好的效能,本文討論了主題記憶網路對錶 1 的測試樣例 S 學到了什麼表示,結果如圖 2 所示。由結果讀者可以觀察到,與 S 最相關的三個主題分別與 Bieber、追星以及音樂相關。雖然三個主題的相關主題詞大多都不被包含於 S 當中,但是透過挖掘詞與詞的共現關係,主題模型成功擴充套件了 S 中主題詞 wristband 的語義,從而使得 S 得以被正確分類到 New Music Live。
圖 2:主題記憶網路學到的對於 S 的表示。左圖是主題記憶機制中儲存的 S 中每個詞與各主題之間的關係熱度圖,右圖是關係最大的三個主題的相關詞。
結語
本文是主題模型與文字分類在神經網路框架下的一次結合,也是主題表示與其他深度學習任務聯合訓練的一個嘗試,希望能夠對啟發後續對於主題表示與深度學習的研究與應用。