萬字長文綜述:給你的資料加上槓杆——文字增強技術的研究進展及應用實踐

機器之心發表於2020-04-01

目 錄

1 為什麼要了解文字增強技術

2. 典型技術方案

2.1. 回譯(Back translation)
2.2. 隨機詞替換 
2.3. 非核心詞替換
2.4. 基於上下文資訊的文字增強
2.5. 基於語言生成模型的文字增強
3. 新方向展望
4. 在金融領域任務的實踐16
4.1. 金融領域的 NLP 任務為什麼需要文字增強技術
4.2. 案例背景及實驗條件
4.2.1. 案例背景和資料集特點
4.2.2. 演算法模型
4.3. 實驗結果及分析
4.3.1. 回譯
4.3.2. EDA
4.3.3. 基於 TF-IDF 的文字增強
4.3.4. 三類方法的對比
4.3.4. 小結
5. 總結
參考文獻

摘 要

文章系統性地回顧了自然語言處理領域中的文字增強技術在近幾年的發展情況,重點列舉和討論了 18 年、19 年中人們常用的五類文字增強技術路徑以及對應的代表性技術。接下來,文章以金融領域的自然語言處理任務入手,多維度地分析幾類通用文字資料增強技術在實際業務問題上的重要價值。文章的結論是,文字增強技術是一類低成本的資料槓桿,可以在不引入新資料下,有效撬動模型效能。

1 為什麼要了解文字增強技術

本文摘自熵簡科技 NLP 團隊的內部技術沙龍,文章系統性地回顧了自然語言處理領域中的文字增強技術在近幾年的發展情況,重點列舉和討論了 18 年、19 年中人們常用的五類文字增強技術路徑以及對應的代表性技術,希望對於大家的日常研究工作有所啟發。在第 4 節中,我們以金融資管領域的實際應用場景入手,多維度地分析了幾類通用的文字資料增強技術在實際產品研發中的作用。

在開始介紹具體方法之前,先簡單列舉一下目前自然語言處理任務中運用文字增強技術的常見場景:

(1) 少樣本場景

在少樣本場景下,能夠蒐集到的樣本數目不滿足模型訓練的需求,導致模型處於欠擬合的狀態。自然而然,在現有資料基礎上,運用文字增強技術來擴充樣本集,是一件又快又省,價效比很高的事。很多研究也已經表明,這種方法可以明顯提高模型的效能 [1-3];

(2) 分類任務中樣本分佈不均衡的場景

除了一些基準 benchmark,真實場景中大部分文字分類任務中的各類別樣本數目都是不均衡的,很多時候樣本數最多類別的數目可能比最少的類別高兩個數量級。這會帶來很多問題,比如模型對於小樣本類別往往處於欠擬合狀態,在實際預測時,幾乎不會對這一類別給予太高的概率。

自然,面對這樣的問題,一種常見的處理方式是針對小樣本類別,運用資料增強技術進行樣本擴充,從而降低樣本間的不均衡性,提高模型的泛化能力。這種方法也在實際中被多次證明了其有效性 [2,4];

當然,對於樣本不均衡問題,已經有很多解決方法,大家可以參考這篇 google 引用數快 1 萬的論文 [5] 及其引文。

(3) 半監督訓練場景

至少從 19 年 NLP 方向 google 出品的半監督學習演算法 UDA 可以看出 [6],文字資料增強技術可以用在無標籤樣本上,以構造出半監督訓練所需的樣本對,以此讓模型從無標籤的資料中獲取到優化所需的梯度。關於半監督學習的具體進展,後面如果有時間,可以單開一篇文章介紹。

(4) 提高模型的魯棒性

資料增強技術在不嚴謹的情況下可以分為兩類,一類是在保持語義不變的情況下,變換文字的表達形式,例如接下來提到的回譯、文字複述等;另一類是,按照某種策略對原文進行區域性調整,例如後面提到同義詞替換,隨機刪除等等。不論是哪種方法,都可以認為是提高了模型的魯棒性,使得模型更關注文字的語義資訊,並對文字的區域性噪聲不再敏感。舉個例子,「文字資料強增技術幫助可以模型對於噪聲區域性不再感敏」,如果你依然能夠看明白這句話的意思,說明你對於文字區域性噪聲也是不敏感的。

基於這種考慮,無論是少樣本場景還是大語料場景,文字增強技術都有助於提高模型的魯棒性,提高其泛化能力。關於這一點,深度學習領域著名的花書 [7] 的 7.4 節表達了類似的觀點。

從上面的介紹可以看出來,文字資料增強技術在自然語言處理中屬於基礎性技術,具有廣闊的應用場景,因此有必要對其進行系統性的討論。

相關文章