膠囊網路(Capsule Network)在文字分類的探索

騰訊雲加社群發表於2019-02-22

原文網址 : https://flycode.co/archives/282550

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~

本文來自雲+社群專欄語言、知識與人工智慧，作者騰訊知文實驗室

文字建模方法大致可以分為兩類：(1) 忽略詞序、對文字進行淺層語義建模（代表模型包括LDA，Earth Mover’s distance等;(2)考慮詞序、對文字進行深層語義建模（深度學習演算法，代表模型包括LSTM，CNN等）。對於深度神經網路演算法，空間模式（spatial patterns）彙總在較低層，有助於表示更高層的概念（concepts）。例如，CNN卷積特徵檢測器提取來自區域性的序列視窗的模式，並使用max-pooling來選擇最明顯的特徵。然後，CNN分層地提取不同層次的特徵模式。然而，CNN在對空間資訊進行建模時，需要對特徵檢測器進行復制，降低了模型的效率。正如（Sabour et al, 2017）所論證的那樣，這類方法所需複製的特徵檢測器的個數或所需的有標籤訓練資料的數量隨資料維度呈指數增長。另一方面，空間不敏感的方法不可避免地受限於對豐富的文字結構（比如儲存單詞的位置資訊、語義資訊、語法結構等）進行有效地編碼，缺乏文字表達能力。

最近，Hinton老師等提出了膠囊網路（capsulenetwork）, 用神經元向量代替傳統神經網路的單個神經元節點，以dynamic routing的方式去訓練這種全新的神經網路，有效地改善了上述兩類方法的缺點。正如在人類的視覺系統的推理過程中，可以智慧地對區域性和整體（part-whole）的關係進行建模，自動地將學到的知識推廣到不同的新場景中。

到目前為止，並沒有工作將capsule network應用於自然語言處理中（e.g.,文字分類) 。我們針對capsule network在文字分類任務上的應用做了深入研究。對於傳統的分類問題，capsule network取得了較好效能（我們在6個benchmarks上進行了實驗，capsulenetwork在其中4箇中取得了最好結果）。更重要的是，在多標籤遷移的任務上（fromsingle-label to multi-label text classification），capsulenetwork的效能遠遠地超過了CNN和LSTM。我們的工作已經發表在arxiv上，論文名為Investigating Capsule Networks withDynamic Routing for Text Classification。更多細節可以參考連結：https://arxiv.org/pdf/1804.00538.pdf。我們會在論文發表後公開原始碼。

文字主要研究膠囊網路在文字分類任務上的應用，模型的結構圖如下：

其中，連續兩個卷積層採用動態路由替換池化操作。動態路由的具體細節如下：

在路由過程中，許多膠囊屬於背景膠囊，它們和最終的類別膠囊沒有關係，比如文字里的停用詞、類別無關詞等等。因此，我們提出三種策略有減少背景或者噪音膠囊對網路的影響。

Orphan類別：在膠囊網路的最後一層，我們引入Orphan類別，它可以捕捉一些背景知識，比如停用詞。在視覺任務加入Orphan類別效果比較有限，因為圖片的背景在訓練和測試集裡往往是多變的。然而，在文字任務，停用詞比較一致，比如謂詞和代詞等。
Leaky-Softmax：除了在最後一層引入Orphan類別，中間的連續卷積層也需要引入去噪機制。對比Orphan類別，Leaky-Softmax是一種輕量的去燥方法，它不需要額外的引數和計算量。
路由引數修正：傳統的路由引數，通常用均與分佈進行初始化，忽略了下層膠囊的概率。相反，我們把下層膠囊的概率當成路由引數的先驗，改進路由過程。

在ablation test中，我們對改進的路由和原始路由方法進行對比，如下：

此外，為了提升文字效能，我們引入了兩種網路結構，具體如下：

資料集：為了驗證模型的有效性，我們在6個文字資料集上做測試，細節如下：

在實驗中，我們和一些效果較好的文字分類演算法進行了對比。由於本文的重點是研究capsule network相對已有分類演算法（e.g., LSTM, CNN）是否有提升，我們並沒用與網路結構太過複雜的模型進行對比。實驗結果如下：

此外，我們重點進行了多標籤遷移實驗。我們將Rueter-21578資料集中的單標籤樣本作為訓練資料，分別在只包含多標籤樣本的測試資料集和標準測試資料集上進行測試。詳細的資料統計以及實驗結果如下圖所示。從表中我們可以看出，當我們用單標籤資料對模型進行訓練，並在多標籤資料上進行測試時，capsule network的效能遠遠高於LSTM、CNN等。

此外，我們還做了case study分析，發現路由引數可以表示膠囊的重要性，並對膠囊進行視覺化（此處我們主要視覺化3-gram的結果）。具體來說，我們刪除卷積膠囊層，將primary capsule layer直接連結到fully-connectedcapsule layer，其中primary capsule 代表了N-gram短語在capsule裡的形式，capsule之間的連線強度代表了每個primary capsule在本文類別中的重要性（比較類似並行注意力機制）。由圖我們可以看出，對於Interest Rate類別，months-interbank-rate等3- grams其著重要作用。

致謝：感謝jhui和蘇劍林，他們的文章啟發了我們的工作。感謝naturomics和gyang274的開原始碼，讓我們開發過程變得高效。

https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/

https://spaces.ac.cn/archives/4819

https://github.com/bojone/Capsule

https://github.com/naturomics/CapsNet-Tensorflow

問答

偏差在神經網路中的作用？

相關閱讀

遊戲文字關鍵詞提取工作的嘗試和探索

深度學習在自然語言處理中的應用

視覺化CapsNet，詳解Hinton等人提出的膠囊概念與原理

此文已由作者授權騰訊雲+社群釋出，原文連結：https://cloud.tencent.com/developer/article/1145655?fromSource=waitui

歡迎大家前往騰訊雲+社群或關注雲加社群微信公眾號（QcloudCommunity），第一時間獲取更多海量技術實踐乾貨哦~

拆解式解讀如何用飛槳復現膠囊神經網路（Capsule Network）
2020-09-01
神經網路
如何理解和使用膠囊網路
2019-01-18
Hinton：膠囊網路的專利是我的了
2020-09-24
文字分類(下)-卷積神經網路(CNN)在文字分類上的應用
2018-07-25
文字分類卷積神經網路CNN
膠囊網路：將CNN推下神壇的“天命之子”
2019-05-24
CNN
卷積網路雖動人，膠囊網路更傳“神”
2018-07-13
卷積
膠囊網路與計算機視覺教程 @CVPR 2019
2020-01-16
計算機視覺
全面掌握膠囊網路：從基礎理論到PyTorch實戰
2023-10-30
PyTorch
文字圖Tranformer在文字分類中的應用
2022-01-31
ORM文字分類
一文帶你速覽分層注意力網路在文字分類中的應用
2019-06-04
文字分類
CSS3膠囊開關美化
2018-06-02
CSSS3
[譯] RNN 迴圈神經網路系列 2：文字分類
2019-03-01
RNN神經網路文字分類
內容分發網路（Content Delivery Network，CDN）
2019-06-21
設計一個基於 LSTM 神經網路的文字分類器
2024-11-26
神經網路文字分類
文字分類-TextCNN
2018-11-09
文字分類CNN
文字分類模型
2020-10-28
文字分類模型
「影像分類」實戰影像分類網路的視覺化
2019-09-04
視覺化
匿名IP在網路抓取中的應用探索
2023-05-16
B類網路快速子網劃分
2020-12-29
【人人都能學得會的NLP - 文字分類篇 03】長文字多標籤分類分類如何做？
2024-11-30
文字分類
匿名IP在網路爬蟲中的應用探索
2023-05-16
爬蟲
Facebook在NAS領域的輕量級網路探索
2020-10-10
視覺化CapsNet，詳解Hinton等人提出的膠囊概念與原理
2018-04-07
視覺化
三味Capsule：矩陣Capsule與EM路由
2018-03-02
矩陣路由
網路：IP地址分類和分段
2019-01-14
【長篇乾貨】深度學習在文字分類中的應用
2018-04-04
深度學習文字分類
BiLSTM-Attention文字分類
2020-04-22
文字分類
文字分類論文系列---
2021-01-02
文字分類
網路安全漏洞的種類分為哪些?
2023-12-29
短文字分類，騰訊AI Lab聯合港中文提出主題記憶網路
2018-10-23
文字分類AI
使用Facebook的FastText簡化文字分類
2019-03-23
AST文字分類
為資料安全護航，袋鼠雲在資料分類分級上的探索實踐
2024-06-19
乾貨解析｜深度學習文字分類在支付寶投訴文字模型上的應用
2018-08-20
深度學習文字分類模型
TensorFlow2.0教程-文字分類
2019-03-11
文字分類
5.2.2 用TextCNN做文字分類
2019-12-31
CNN文字分類
pyhanlp文字分類與情感分析
2019-02-20
HanLP文字分類
Graph Neural Network——圖神經網路
2022-12-17
神經網路
echarts自定義膠囊柱圖並設定每個柱子的漸變色
2024-07-19
Echarts

膠囊網路(Capsule Network)在文字分類的探索

相關文章