知否?知否?一文看懂深度文字分類之DPCNN原理與程式碼
【導讀】ACL2017年中,騰訊AI-lab提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。論文中提出了一種基於word-level級別的網路-DPCNN,由於上一篇文章介紹的TextCNN 不能通過卷積獲得文字的長距離依賴關係,而論文中DPCNN通過不斷加深網路,可以抽取長距離的文字依賴關係。實驗證明在不增加太多計算成本的情況下,增加網路深度就可以獲得最佳的準確率。
作者 | 何從慶
本文經授權轉載自 AI演算法之心
DPCNN結構
究竟是多麼牛逼的網路呢?我們下面來窺探一下模型的芳容。
DPCNN結構細節
模型是如何通過加深網路來捕捉文字的長距離依賴關係的呢?下面我們來一一道來。為了更加簡單的解釋DPCNN,這裡我先不解釋是什麼是Region embedding,我們先把它當作word embedding。
等長卷積
首先交代一下卷積的的一個基本概念。一般常用的卷積有以下三類:
假設輸入的序列長度為n,卷積核大小為m,步長(stride)為s,輸入序列兩端各填補p個零(zero padding),那麼該卷積層的輸出序列為(n-m+2p)/s+1。
(1) 窄卷積(narrow convolution): 步長s=1,兩端不補零,即p=0,卷積後輸出長度為n-m+1。
(2) 寬卷積(wide onvolution) :步長s=1,兩端補零p=m-1,卷積後輸出長度 n+m-1。
(3) 等長卷積(equal-width convolution): 步長s=1,兩端補零p=(m-1)/2,卷積後輸出長度為n。如下圖所示,左右兩端同時補零p=1,s=3。
池化
那麼DPCNN是如何捕捉長距離依賴的呢?這裡我直接引用文章的小標題——Downsampling with the number of feature maps fixed。
作者選擇了適當的兩層等長卷積來提高詞位embedding的表示的豐富性。然後接下來就開始 Downsampling (池化)。再每一個卷積塊(兩層的等長卷積)後,使用一個size=3和stride=2進行maxpooling進行池化。序列的長度就被壓縮成了原來的一半。其能夠感知到的文字片段就比之前長了一倍。
例如之前是隻能感知3個詞位長度的資訊,經過1/2池化層後就能感知6個詞位長度的資訊啦,這時把1/2池化層和size=3的卷積層組合起來如圖所示。
固定feature maps(filters)的數量
為什麼要固定feature maps的數量呢?許多模型每當執行池化操作時,增加feature maps的數量,導致總計算複雜度是深度的函式。與此相反,作者對feature map的數量進行了修正,他們實驗發現增加feature map的數量只會大大增加計算時間,而沒有提高精度。
另外,夕小瑤小姐姐在知乎也詳細的解釋了為什麼要固定feature maps的數量。有興趣的可以去知乎搜一搜,講的非常透徹。
固定了feature map的數量,每當使用一個size=3和stride=2進行maxpooling進行池化時,每個卷積層的計算時間減半(資料大小減半),從而形成一個金字塔。
這就是論文題目所謂的 Pyramid。
好啦,看似問題都解決了,目標成功達成。剩下的我們就只需要重複的進行等長卷積+等長卷積+使用一個size=3和stride=2進行maxpooling進行池化就可以啦,DPCNN就可以捕捉文字的長距離依賴啦!
Shortcut connections with pre-activation
但是!如果問題真的這麼簡單的話,深度學習就一下子少了超級多的難點了。
(1) 初始化CNN的時,往往各層權重都初始化為很小的值,這導致了最開始的網路中,後續幾乎每層的輸入都是接近0,這時的網路輸出沒有意義;
(2) 小權重阻礙了梯度的傳播,使得網路的初始訓練階段往往要迭代好久才能啟動;
(3) 就算網路啟動完成,由於深度網路中仿射矩陣(每兩層間的連線邊)近似連乘,訓練過程中網路也非常容易發生梯度爆炸或彌散問題。
當然,上述這幾點問題本質就是梯度彌散問題。那麼如何解決深度CNN網路的梯度彌散問題呢?當然是膜一下何愷明大神,然後把ResNet的精華拿來用啦! ResNet中提出的shortcut-connection/ skip-connection/ residual-connection(殘差連線)就是一種非常簡單、合理、有效的解決方案。
類似地,為了使深度網路的訓練成為可能,作者為了恆等對映,所以使用加法進行shortcut connections,即z+f(z),其中 f 用的是兩層的等長卷積。這樣就可以極大的緩解了梯度消失問題。
另外,作者也使用了 pre-activation,這個最初在何凱明的“Identity Mappings in Deep Residual Networks上提及,有興趣的大家可以看看這個的原理。直觀上,這種“線性”簡化了深度網路的訓練,類似於LSTM中constant error carousels的作用。而且實驗證明 pre-activation優於post-activation。
整體來說,巧妙的結構設計,使得這個模型不需要為了維度匹配問題而擔憂。
Region embedding
同時DPCNN的底層貌似保持了跟TextCNN一樣的結構,這裡作者將TextCNN的包含多尺寸卷積濾波器的卷積層的卷積結果稱之為Region embedding,意思就是對一個文字區域/片段(比如3gram)進行一組卷積操作後生成的embedding。
另外,作者為了進一步提高效能,還使用了tv-embedding (two-views embedding)進一步提高DPCNN的accuracy。
上述介紹了DPCNN的整體架構,可見DPCNN的架構之精美。本文是在原始論文以及知乎上的一篇文章的基礎上進行整理。本文可能也會有很多錯誤,如果有錯誤,歡迎大家指出來!建議大家為了更好的理解DPCNN ,看一下原始論文和參考裡面的知乎。
用Keras實現DPCNN網路
這裡參考了一下kaggle的程式碼,模型一共用了七層,模型的引數與論文不太相同。這裡濾波器通道個數為64(論文中為256),具體的引數可以參考下面的程式碼,部分我寫了註釋。
def CNN(x):
block = Conv1D(filter_nr, kernel_size=filter_size, padding=same, activation=linear,
kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(x)
block = BatchNormalization()(block)
block = PReLU()(block)
block = Conv1D(filter_nr, kernel_size=filter_size, padding=same, activation=linear,
kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(block)
block = BatchNormalization()(block)
block = PReLU()(block)
return block
def DPCNN():
filter_nr = 64 #濾波器通道個數
filter_size = 3 #卷積核
max_pool_size = 3 #池化層的pooling_size
max_pool_strides = 2 #池化層的步長
dense_nr = 256 #全連線層
spatial_dropout = 0.2
dense_dropout = 0.5
train_embed = False
conv_kern_reg = regularizers.l2(0.00001)
conv_bias_reg = regularizers.l2(0.00001)
comment = Input(shape=(maxlen,))
emb_comment = Embedding(max_features, embed_size, weights=[embedding_matrix], trainable=train_embed)(comment)
emb_comment = SpatialDropout1D(spatial_dropout)(emb_comment)
#region embedding層
resize_emb = Conv1D(filter_nr, kernel_size=1, padding=same, activation=linear,
kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(emb_comment)
resize_emb = PReLU()(resize_emb)
#第一層
block1 = CNN(emb_comment)
block1_output = add([block1, resize_emb])
block1_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block1_output)
#第二層
block2 = CNN(block1_output)
block2_output = add([block2, block1_output])
block2_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block2_output)
#第三層
block3 = CNN(block2_output)
block3_output = add([block3, block2_output])
block3_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block3_output)
#第四層
block4 = CNN(block3_output)
block4_output = add([block4, block3_output])
block4_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block4_output)
#第五層
block5 = CNN(block4_output)
block5_output = add([block5, block4_output])
block5_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block5_output)
#第六層
block6 = CNN(block5_output)
block6_output = add([block6, block5_output])
block6_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block6_output)
#第七層
block7 = CNN(block6_output)
block7_output = add([block7, block6_output])
output = GlobalMaxPooling1D()(block7_output)
#全連線層
output = Dense(dense_nr, activation=linear)(output)
output = BatchNormalization()(output)
output = PReLU()(output)
output = Dropout(dense_dropout)(output)
output = Dense(6, activation=sigmoid)(output)
model = Model(comment, output)
model.summary()
model.compile(loss=binary_crossentropy,
optimizer=optimizers.Adam(),
metrics=[accuracy])
return model
DPCNN實戰
上面我們用keras實現了我們的DPCNN網路,這裡我們藉助kaggle的有毒評論文字分類競賽來實戰下我們的DPCNN網路。
具體地程式碼,大家可以去我的GitHub上面找到原始碼:
https://github.com/hecongqing/TextClassification/blob/master/DPCNN.ipynb
參考:
https://ai.tencent.com/ailab/media/publications/ACL3-Brady.pdf
https://zhuanlan.zhihu.com/p/35457093
https://www.kaggle.com/michaelsnell/conv1d-dpcnn-in-keras
AI演算法之心是一個介紹python、pyspark、機器學習、自然語言處理、深度學習、演算法競賽的平臺。
(本文為 AI科技大本營轉載文章,轉載請微信聯絡原作者。)
徵稿推薦閱讀
相關文章
- 知否?知否?Vue之MVVMVueMVVM
- 知否?知否?情人眼裡出程式碼
- 知否知否,Java 面試的年貨到了Java面試
- 知否,知否,線性迴歸基礎教程值得擁有
- 資料結構知否知否系列之 — 線性表的順序與鏈式儲存篇(8000 多字長資料結構
- 知否?知否!Java工程師常見面試題集錦(四)網際網路人必看!(附答案及視訊教程,持續更新)Java工程師面試題
- 判斷存在與否
- 什麼是群控 知否支援抖音快手等熱門軟體
- 幽默:不要試圖測評知識工作者,否則會躺平!
- 論加鎖否:程式日誌
- 雲端計算是與否辨別方法
- 先天認知與深度學習深度學習
- 解碼“認知之輪”:AI與人類的終極一戰AI
- pyhanlp文字分類與情感分析HanLP文字分類
- 一文看懂Redis的持久化原理Redis持久化
- “分庫分表” ?選型和流程要慎重,否則會失控
- “分庫分表" ?選型和流程要慎重,否則會失控
- JQuery老矣,尚能飯否jQuery
- 語言小知識-Java ArrayList類 深度解析Java
- 語言小知識-Java HashMap類 深度解析JavaHashMap
- 深度學習——如何用LSTM進行文字分類深度學習文字分類
- 思否 8 週年慶感恩回饋,思否程式設計眾多豪禮今天開搶程式設計
- 思否有約|@汝何不上九霄:持續輸出,鞏固知識經驗
- 深度學習(二)之貓狗分類深度學習
- pytorch深度學習分類程式碼簡單示例PyTorch深度學習
- 一文看懂神經網路工作原理神經網路
- Java基礎知識整理之程式碼塊Java
- 五分鐘看懂UML類圖與類的關係詳解
- 知物由學 | 更適合文字分類的輕量級預訓練模型文字分類模型
- 五分鐘看懂vue原理(一)Vue
- 判斷當前路由,指定元件顯示與否路由元件
- Tuxera NTFS for Mac怎麼檢視啟用與否UXMac
- 雲知聲:深度文字匹配在智慧客服中的應用
- 網路知識之 IP 與子網掩碼
- 物件與類_知識點筆記物件筆記
- 唯品會否認售假:已啟動法律程式
- 外掛化知識梳理(6) Small 原始碼分析之 Hook 原理原始碼Hook
- 一文看懂socket程式設計程式設計