萬字長文綜述：給你的資料加上槓杆——文字增強技術的研究進展及應用實踐

機器之心發表於2020-04-01

原文網址 : https://www.jiqizhixin.com/articles/2020-04-01-11

目錄

1 為什麼要了解文字增強技術

2. 典型技術方案

2.1. 回譯（Back translation）

2.2. 隨機詞替換

2.3. 非核心詞替換

2.4. 基於上下文資訊的文字增強

2.5. 基於語言生成模型的文字增強

3. 新方向展望

4. 在金融領域任務的實踐16

4.1. 金融領域的 NLP 任務為什麼需要文字增強技術

4.2. 案例背景及實驗條件

4.2.1. 案例背景和資料集特點

4.2.2. 演算法模型

4.3. 實驗結果及分析

4.3.1. 回譯

4.3.2. EDA

4.3.3. 基於 TF-IDF 的文字增強

4.3.4. 三類方法的對比

4.3.4. 小結

5. 總結

參考文獻

摘要

文章系統性地回顧了自然語言處理領域中的文字增強技術在近幾年的發展情況，重點列舉和討論了 18 年、19 年中人們常用的五類文字增強技術路徑以及對應的代表性技術。接下來，文章以金融領域的自然語言處理任務入手，多維度地分析幾類通用文字資料增強技術在實際業務問題上的重要價值。文章的結論是，文字增強技術是一類低成本的資料槓桿，可以在不引入新資料下，有效撬動模型效能。

1 為什麼要了解文字增強技術

本文摘自熵簡科技 NLP 團隊的內部技術沙龍，文章系統性地回顧了自然語言處理領域中的文字增強技術在近幾年的發展情況，重點列舉和討論了 18 年、19 年中人們常用的五類文字增強技術路徑以及對應的代表性技術，希望對於大家的日常研究工作有所啟發。在第 4 節中，我們以金融資管領域的實際應用場景入手，多維度地分析了幾類通用的文字資料增強技術在實際產品研發中的作用。

在開始介紹具體方法之前，先簡單列舉一下目前自然語言處理任務中運用文字增強技術的常見場景：

(1) 少樣本場景

在少樣本場景下，能夠蒐集到的樣本數目不滿足模型訓練的需求，導致模型處於欠擬合的狀態。自然而然，在現有資料基礎上，運用文字增強技術來擴充樣本集，是一件又快又省，價效比很高的事。很多研究也已經表明，這種方法可以明顯提高模型的效能 [1-3]；

(2) 分類任務中樣本分佈不均衡的場景

除了一些基準 benchmark，真實場景中大部分文字分類任務中的各類別樣本數目都是不均衡的，很多時候樣本數最多類別的數目可能比最少的類別高兩個數量級。這會帶來很多問題，比如模型對於小樣本類別往往處於欠擬合狀態，在實際預測時，幾乎不會對這一類別給予太高的概率。

自然，面對這樣的問題，一種常見的處理方式是針對小樣本類別，運用資料增強技術進行樣本擴充，從而降低樣本間的不均衡性，提高模型的泛化能力。這種方法也在實際中被多次證明了其有效性 [2,4]；

當然，對於樣本不均衡問題，已經有很多解決方法，大家可以參考這篇 google 引用數快 1 萬的論文 [5] 及其引文。

(3) 半監督訓練場景

至少從 19 年 NLP 方向 google 出品的半監督學習演算法 UDA 可以看出 [6]，文字資料增強技術可以用在無標籤樣本上，以構造出半監督訓練所需的樣本對，以此讓模型從無標籤的資料中獲取到優化所需的梯度。關於半監督學習的具體進展，後面如果有時間，可以單開一篇文章介紹。

(4) 提高模型的魯棒性

資料增強技術在不嚴謹的情況下可以分為兩類，一類是在保持語義不變的情況下，變換文字的表達形式，例如接下來提到的回譯、文字複述等；另一類是，按照某種策略對原文進行區域性調整，例如後面提到同義詞替換，隨機刪除等等。不論是哪種方法，都可以認為是提高了模型的魯棒性，使得模型更關注文字的語義資訊，並對文字的區域性噪聲不再敏感。舉個例子，「文字資料強增技術幫助可以模型對於噪聲區域性不再感敏」，如果你依然能夠看明白這句話的意思，說明你對於文字區域性噪聲也是不敏感的。

基於這種考慮，無論是少樣本場景還是大語料場景，文字增強技術都有助於提高模型的魯棒性，提高其泛化能力。關於這一點，深度學習領域著名的花書 [7] 的 7.4 節表達了類似的觀點。

從上面的介紹可以看出來，文字資料增強技術在自然語言處理中屬於基礎性技術，具有廣闊的應用場景，因此有必要對其進行系統性的討論。

OCR技術發展綜述與達觀資料的實踐經驗
2022-10-12
GitOps 應用實踐系列 - 綜述
2021-10-19
Git
AIGC用於智慧寫作的技術綜述-達觀資料
2023-01-13
AIGC
「技術綜述」視訊分類/行為識別研究綜述，從資料集到方法
2019-08-25
人工智慧技術發展綜述
2020-11-16
人工智慧
鏈路追蹤技術的應用及實踐
2020-07-09
資料探勘技術在軌跡資料上的應用實踐
2020-09-29
綜述 | 農業大模型：關鍵技術、應用分析與發展方向
2024-06-29
大模型
Embedding技術與應用(3)：Embeddings技術的實踐應用
2023-11-08
自動機器學習：最近進展研究綜述
2019-08-11
機器學習
日均處理萬億資料！Flink在快手的應用實踐與技術演進之路
2019-09-06
七、資料庫技術的發展及新技術
2018-03-24
資料庫
連載：阿里巴巴大資料實踐—資料建模綜述
2020-08-24
阿里大資料
IEA：全球智慧電網技術專利資料綜述
2024-08-29
神經架構搜尋在視訊理解中研究進展的綜述
2019-12-11
架構
大資料處理的關鍵技術及應用
2022-05-19
大資料
AR擴增實境技術在多媒體展廳中的應用
2023-03-16
業內專家長篇綜述：6G最新進展及未來發展趨勢
2020-12-19
馬志強：語音識別技術研究進展和應用落地分享丨RTC Dev Meetup
2022-06-15
dev
AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展
2022-09-15
AI
文字識別（五）--自然場景文字檢測技術綜述（CTPN, SegLink, EAST）
2019-02-18
AST
「技術綜述」人臉年齡估計研究現狀
2019-07-09
視覺SLAM技術綜述
2019-01-05
視覺SLAM
OTN技術的進展及演進趨勢
2022-06-06
八千字長文深度解讀，遷移學習在強化學習中的應用及最新進展
2019-10-21
遷移學習強化學習
DIY技術資訊抓取工具的實踐與研究
2020-04-03
詳解愛奇藝ZoomAI影片增強技術的應用
2019-04-27
OOMAI
資料庫系統防止駭客入侵之技術綜述
2019-04-02
資料庫
Java技術在多資料庫系統中的應用研究
2022-05-10
Java資料庫
博文｜Apache Pulsar 在自研資料管道中的技術實踐
2021-11-20
Apache
長文：基於程式碼的測試生成技術在召回異常問題中的應用實踐 | IDCF
2021-05-10
【讀論文】 -- 推薦系統研究綜述
2024-04-10
94頁論文綜述卷積神經網路：從基礎技術到研究前景
2018-04-07
卷積神經網路
詳解愛奇藝ZoomAI視訊增強技術的應用
2019-04-27
OOMAI
綜述 | 水稻株型的遺傳基礎與分子調控機理研究進展
2024-06-29
技術集錦 | 大資料雲原生技術實戰及最佳實踐系列
2022-02-11
大資料
自動識別技術的發展及應用領域
2021-02-23
文字輿情挖掘的技術探索和實踐
2019-01-07

萬字長文綜述：給你的資料加上槓杆——文字增強技術的研究進展及應用實踐

相關文章