小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

風雨中的小七發表於2022-06-28

原文網址 : https://www.cnblogs.com/gogoSandy/p/16419026.html

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

上一章我們聊了聊通過一致性正則的半監督方案，使用大量的未標註樣本來提升小樣本模型的泛化能力。這一章我們結合FGSM，FGM，VAT看下如何使用對抗訓練，以及對抗訓練結合半監督來提升模型的魯棒性。本章我們會混著CV和NLP一起來說，VAT的兩篇是CV領域的論文，而FGM是CV遷移到NLP的實現方案，一作都是同一位作者大大。FGM的tensorflow實現詳見Github-SimpleClassification

我們會集中討論3個問題

對抗樣本為何存在
對抗訓練實現方案
對抗訓練為何有效

存在性

對抗訓練

下面我們看下如何在模型訓練過程中引入對抗樣本，並訓練模型給出正確的預測

監督任務

這裡的對抗訓練和GAN這類生成對抗訓練不同，這裡的對抗主要指微小擾動，在CV領域可以簡單解釋為肉眼不可見的輕微擾動（如下圖）

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

不過兩類對抗訓練的原理都可以被經典的min-max公式涵蓋

max：對抗的部分通過計算delta來最大化損失
min：訓練部分針對擾動後的輸入進行訓練最小化損失函式

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

以上損失函式的視角，也可以切換成成極大似然估計的視角，也就是FGM中如下的公式，通過計算r，來使得擾動後y的條件概率最小化

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

於是問題就被簡化成了如何計算擾動。最簡單的方案就是和梯度下降相同沿用當前位置的一階導數，梯度下降是沿graident去最小化損失，那沿反方向進行擾動不就可以最大化損失函式。不過因為梯度本身是對當前位置擬合曲線的線性化，所以需要控制步長來保證區域性的線性，反向傳播中我們用learning rate來控制步長，這裡則需要控制擾動的大小。同時對抗擾動本身也需要控制擾動的幅度，不然就不符合微小擾動這個前提，放到NLP可以理解為為了防止擾動造成語義本身產生變化。

FGSM使用了\(l_{\infty}\) norm來對梯度進行正則化，只保留了方向資訊丟棄了gradient各個維度上的scale

而FGM中作者選擇了l2 norm來對梯度進行正則化，在梯度上更多了更多的資訊，不過感覺在模型初始擬合的過程中也可能引入更多的噪音。

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

有了對抗樣本，下一步就是如何讓模型對擾動後的樣本給出正確的分類結果。所以最簡單的訓練方式就是結合監督loss，和施加擾動之後的loss。FGSM中作者簡單用0.5的權重來做融合。所以模型訓練的方式是樣本向前傳遞計算Loss，凍結梯度，計算擾動，對樣本施加擾動再計算Loss，兩個loss加權計算梯度。不過部分實現也有隻保留對抗loss的操作，不妨作為超參對不同任務進行調整～

在使用對抗擾動時有兩個需要注意的點

施加擾動的位置：對輸入層擾動更合理
擾動和擾動層的scale：擾動層歸一化

對於CV任務擾動位置有3個選擇，輸入層，隱藏層，或者輸出層，對於NLP任務因為輸入離散，所以輸入層被替換成look up之後的embedding層。

作者基於萬能逼近定理【簡單說就是一個線性層+隱藏層如果有unit足夠多可以逼近Rn上的任意函式0】指出因為輸出層本身不滿足萬能逼近定理條件，所以對輸出層（linear-softmax layer)擾動一般會導致模型underfit，因為模型會沒有足夠的能力來學習如何抵抗擾動。

而對於啟用函式範圍在[-inf, inf]的隱藏層進行擾動，會導致模型通過放大隱藏層scale來忽略擾動的影響。

因此一般是對輸入層進行擾動，在下面FGM的實現中作者對word embedding進行歸一化來規避上面scale的問題。不過這裡有一個疑問就是對BERT這類預訓練模型是不能對輸入向量進行歸一化的，那麼如何保證BERT在微調的過程中不會通過放大輸入層來規避擾動呢？後來想到的一個點是在探測Bert Finetune對向量空間的影響中提到的，微調對BERT各個層的影響是越接近底層影響越小的，所以從這個角度來說也是針對輸入層做擾動更合理些～

半監督任務

以上的對抗訓練只適用於標註樣本，因為需要通過loss來計算梯度方向，而未標註樣本無法計算loss，最簡單的方案就是用模型預估來替代真實label。於是最大化loss的擾動，變成使得預測分佈變化最大的擾動。

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

以上的虛擬擾動r無法直接計算，於是泰勒展開再次登場，不過這裡因為把y替換成了模型預估p，所以一階導數為0，於是最大化KL近似為最大化二階導數的部分

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

而以上r的求解，其實就是求解二階海森矩陣的最大特徵值對應的特徵向量，以下u就是最大特徵值對應的單位特徵向量

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

因為海森矩陣的計算複雜度較高，一般會採用迭代近似的方式來計算（詳見REF12），簡單說就是隨機向量d（和u非正交），通過反覆的下述迭代會趨近於u

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

而以上Hd同樣可以被近似計算，因為上面KL的一階導數為0，所以我們可以用KL～rHr的一階差分來估計Hd，於是也就得了d的近似值

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

哈哈近似了一圈估計有的盆友們已經蒙圈了，可以對照著下面的計算方案再回來理解下上面的公式，計算虛擬擾動的演算法如下（其中1～4可以多次迭代）

對embedding層施加隨機擾動d
向前傳遞計算擾動後的logit
擾動logit和原始logit計算KL距離
對KL計算梯度
對梯度做歸一化得到虛擬擾動的近似
對embedding層施加虛擬擾動，再計算一遍KL作為虛擬對抗部分的loss

這裡暫時沒有實現VAT因為時間複雜度有些高，之後有需要再補上VAT的部分

合理性

對抗擾動可以理解為一種正則方案，核心是為了提高模型魯棒性，也就是樣本外的泛化能力，這裡給出兩個視角

對比L1正則

對比一致性正則

這裡和上一章我們提到的半監督之一致性正則有著相通之處，一致性正則強調模型應該對輕微擾動的樣本給出一致的預測，但並沒有對擾動本身進行太多的探討，而對抗訓練的核心在於如何對樣本進行擾動。但核心都是擴充標註樣本的覆蓋範圍，讓標註樣本的近鄰擁有一致的模型預測。

效果

FGM論文是在LSTM，Bi-LSTM上做的測試會有比較明顯的2%左右ErrorRate的下降。我在BERT上加入FGM在幾個測試集上嘗試指標效果並不明顯，不過這裡開源資料上測試集和訓練集相似度比較高，而FGM更多是對樣本外的泛化能力的提升。不過我在公司資料上使用FMG輸出的預測概率的置信度會顯著下降，一般bert微調會容易得到0.999這類高置信度預測，而加入FGM之後prob的分佈變得更加合理，這個效果更容易用正則來進行解釋。以下也給出了兩個比賽方案連結裡面都是用fgm做了優化也有一些insights，感興趣的朋友可能在你的測試集上也實驗下～

不過一言以蔽之，FGM的對抗方案，主要通過正則來約束模型學習，更多是錦上添花，想要學中送碳建議盆友們腳踏實地的去優化樣本，優化標註，以及確認你的任務目標定義是否合理～

Reference

對抗攻擊(一) FGSM
2021-07-18
基於句子嵌入的無監督文字摘要（附程式碼實現）
2020-02-04
GAN實戰筆記——第七章半監督生成對抗網路（SGAN）
2022-03-13
筆記
利用DP-SSL對少量的標記樣本進行有效的半監督學習
2022-02-22
對抗樣本綜述(一)
2021-07-10
對抗防禦之對抗樣本檢測（一）：Feature Squeezing
2021-08-13
一圖看懂監督學習、無監督學習和半監督學習
2020-02-18
你真的懂對抗樣本嗎？一文重新思考對抗樣本背後的含義
2019-09-17
對抗樣本學習筆記（一）
2019-04-21
筆記
自監督、半監督和有監督全涵蓋，四篇論文遍歷對比學習的研究進展
2020-09-15
詳解基於圖卷積的半監督學習（附程式碼）
2019-03-07
卷積
vuex 2.*原始碼解析—— 花半小時就可以讀懂vuex實現原理
2018-12-25
Vue原始碼
使用對抗樣本的攻擊過程
2020-09-29
只有條件GAN才能穩定訓練？對抗+自監督的無監督方法瞭解一下
2019-01-02
基於自編碼器的表徵學習：如何攻克半監督和無監督學習？
2018-12-22
【半監督學習】MixMatch、UDA、ReMixMatch、FixMatch
2020-04-18
REM
Hinton新作！越大的自監督模型，半監督學習需要的標籤越少
2020-10-30
模型
LUSE: 無監督資料預訓練短文字編碼模型
2021-07-31
模型
對抗樣本並非bug，它們只是特徵罷了
2019-05-09
特徵
連載三：PyCon2018｜用對抗樣本攻擊PNASNet模型(附原始碼)
2019-03-04
模型原始碼
7 papers | 對抗樣本前，BERT也不行；AutoML的商業實踐綜述
2019-07-22
TOML
基於attention的半監督GCN | 論文分享
2019-03-05
GC
無監督文字自動摘要野生技術
2018-09-19
關於自監督的一些文字
2020-12-02
小程式如何把文字玩出花樣
2019-02-28
JS實現監控微信小程式
2018-06-14
JS微信小程式
手把手教你在多種無監督聚類演算法實現Python（附程式碼）
2018-05-31
聚類演算法Python
Node和http：一本通【附tcp實現http小程式碼】
2018-04-04
HTTPTCP
基於多模態對抗學習的無監督時間序列異常檢測
2022-08-04
MIT最新研究：對抗樣本才不是bug呢，人家，人家是特徵~
2019-05-15
MIT特徵
起底語音對抗樣本：語音助手危險了嗎？
2018-03-06
小程式端實現文字展示以及標題定位
2019-02-17
RLHF · PBRL | SURF：使用半監督學習，對 labeled segment pair 進行資料增強
2023-11-11
AI
對抗式協作：一個框架解決多個無監督學習視覺問題
2018-06-25
框架視覺
【機器學習基礎】半監督學習簡介
2021-12-23
機器學習
知物由學 | 機器聰明過人，“半監督”與“自監督”結合讓AI模型訓練事半功倍
2021-06-24
AI模型
CSS設定半個文字的樣式
2018-07-11
CSS
基於Labelstudio的UIE半監督智慧標註方案（本地版）
2023-04-03
UI

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

小樣本利器2.文字對抗+半監督 FGSM & VAT & FGM程式碼實現

存在性

對抗訓練

監督任務

半監督任務

合理性

效果

相關文章