ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

PaperWeekly發表於2019-06-03

原文網址 : http://www.jiqizhixin.com/articles/2019-06-03-16

論文動機

自從 BERT 被提出之後，整個自然語言處理領域進入了一個全新的階段，大家紛紛使用 BERT 作為模型的初始化，或者說在 BERT 上進行微調。BERT 的優勢就在於使用了超大規模的文字語料，從而使得模型能夠掌握豐富的語義模式。

但 BERT 是否還有改進的空間呢？如下圖，當提到*鮑勃迪倫*的時候，單純依靠大規模的普通文字很難理解到底是指音樂家還是作者，但如果加入充分的先驗知識，那麼模型可能就會學習到更加精細化的語義表示，如何讓 BERT 掌握更多的人類先驗知識呢？

本文就提出了一種方法，將知識圖譜的資訊加入到模型的訓練中，這樣模型就可以從大規模的文字語料和先驗知識豐富的知識圖譜中學習到字、詞、句以及知識表示等內容，從而有助於其解決更加複雜、更加抽象的自然語言處理問題。

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

模型結構

整個模型的動機就是將知識圖譜的資訊有效融入到模型的訓練中，考慮到 BERT 的複雜結構，如何將知識圖譜的資訊進行有效融合呢？作者提出瞭如下的結構：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

可以看出，模型將 BERT 中的 Encoder 替換為了 T-Encoder+K-Encoder，T-Encoder 依然是對原來的文字進行編碼，這部分和 BERT 是一樣的，在 K-Encoder 中，可以看到輸入輸出都變成了兩個，多了 entity 的資訊。

具體來說，首先可以利用 TransE 的方法對知識圖譜中的內容進行表示，並對文字中的實體進行識別，這樣文字中的實體都會有一個來自知識圖譜的實體表示，需要注意的是文字的長度和實體的長度並不相等，然後先用 mutli-head attention 對文字和實體分別進行處理，得到在整個序列中情境感知的語義表示：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

接下來就是對這兩種資訊進行融合，或者說利用實體的資訊來增強對文字語義的理解，這個時候就分成兩種情況：

1. 文字中的詞有實體對應，一個很簡單的思路，通過一個非線性變換，得到融合後的資訊：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

2. 文中的詞沒有實體對應，為了保證一致性，還是同樣的方法，只是只有實體詞的輸入：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

通過這樣的方法，就將實體的知識資訊融入到了對文字語義的增強表示中，接下來將相應的單元重複多次，就得到的最終的文字語義表示。

訓練細節

從模型上實現了知識圖譜資訊的有效融合，那如何訓練呢？如果單純還是和 BERT 的訓練方式相同，知識圖譜的知識資訊可能並不能如期望的那樣進行有效融合，因此作者參考 Masked Language Model 設計了一個 denoising Entity Auto-encoder (dEA) 任務，用以訓練模型對實體資訊的感知和對齊，具體內容如下。

dEA 的目的就是要求模型能夠根據給定的實體序列和文字序列來預測對應的實體，首先是實體和文字之間的對齊概率計算：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

這個公式也被當作訓練 dEA 時的損失函式，有了目標，那麼資料該如何準備呢？和 Masked Language Model 類似，作者對實體也做了如下處理：

1. 對於一個給定的文字-實體對應序列，5% 的情況下，實體會被替換為一個隨機的實體，這麼做是為了讓模型能夠區分出正確的實體對應和錯誤的實體對應；

2. 對於一個給定的文字-實體對應序列，15% 的情況下，實體會被 mask，這是為了保證模型能夠在文字-實體沒有被完全抽取的情況下找到未被抽取的對應關係；

3. 對於一個給定的文字-實體對應序列，剩下的 80% 的情況下，保持不變，這是為了保證模型能夠充分利用實體資訊來增強對文字語義的表達。

和 BERT 類似，作者也對輸入進行了一些調整，從而保證了模型能夠自適應不同的任務，下圖展示了針對三類自然語言處理任務的輸入調整：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

對於一般的 NLP 任務而言，知識在輸入的頭尾加上特定的開始結束符號，然後送給模型，並取 [CLS] 對應的輸出作為輸入句子的表示。

對於一些知識驅動的任務，如關係分類，實體類別識別等任務，作者加入了特定的符號用以區分這些任務，對於實體類別識別任務，作者加入了 [ENT] 來指導模型使用文字表示和實體表示進行最後的實體資訊識別。

對於關係分類任務，作者加入了 [HD] 和 [TL] 分別表示頭實體和尾實體，然後使用 [CLS] 對應的特徵向量來進行最後的分類。整個這部分的操作和 GPT-2 的無監督學習有些類似。

實驗結果

和 BERT 不同的是，作者首先在兩個知識驅動的任務上進行了模型效果的驗證：

1. Entity Typing：給定實體和對應的上下文，模型需要識別該實體的語義型別

2. Relation Classification：給定一個句子，模型需要識別出句子中的兩個實體之間的關係。

這兩個任務都是知識驅動的任務，不單單需要模型能夠掌握豐富的語義模型，同時需要模型能夠有豐富的先驗知識，這樣才能進行準確識別和分類，下圖是對應的實驗結果：

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

從實驗結果上看，模型取得了非常好的效果，這也說明了模型有效融入了知識圖譜的先驗資訊，實現了文字語義的增強表示，同時作者還在常見的 NLP 任務上和 BERT base 進行了對比，實驗結果也證實了模型的有效性。

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

總結

自從 BERT 被提出後，NLP 領域的研究形式也開始慢慢向 CV 靠攏，利用這些預訓練好的超大模型獲得豐富的語義模式，從而通過在具體任務上的微調獲得最後的效果。

但 NLP 和 CV 還是有很大不同的，自然語言是一種高度抽象的資訊，單純通過語言模型獲取豐富的語義模式並不能一勞永逸地解決所有問題，而這篇文章就進行了這方面的一個嘗試，通過引入外部先驗知識增強模型的語義理解和表徵。那是不是還可以進行不僅僅是文字方面的增強，例如通過語音融入情感資訊，通過影象引入視覺資訊等，這些都是值得研究的地方。

最強NLP預訓練模型！谷歌BERT橫掃11項NLP任務記錄
2018-10-12
模型谷歌
XLM — 基於BERT的跨語言模型
2019-08-23
模型
NLP生成任務超越BERT、GPT！微軟提出通用預訓練模型MASS
2019-05-10
GPT微軟模型
中文任務全面超越 BERT：百度正式釋出NLP預訓練模型ERNIE
2019-03-16
模型
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型
知識增廣的預訓練語言模型K-BERT：將知識圖譜作為訓練語料
2022-03-04
模型
基於bert架構的精準知識表徵模型
2019-12-12
架構模型
NLP漢語自然語言處理入門基礎知識
2018-10-31
自然語言處理
IEMLRN：基於影像增強的句子語義表示
2019-04-19
IEMLRN：基於影象增強的句子語義表示
2019-04-19
多項NLP任務新SOTA，Facebook提出預訓練模型BART
2019-12-10
模型
【EMNLP 2023】基於大語言模型的複雜任務認知推理演算法CogTree
2023-12-08
模型演算法
百度開源自然語言理解模型 ERNIE 2.0，16 個 NLP 任務中碾壓 BERT 和 XLNet！
2019-08-06
模型
華為開源預訓練語言模型「哪吒」：編碼、掩碼升級，提升多項中文 NLP 任務效能！
2019-12-06
模型
NLP漢語自然語言處理入門基礎知識介紹
2019-01-04
自然語言處理
谷歌釋出含 7 種語言的全新資料集：有效提升 BERT 等多語言模型任務精度高達 3 倍！
2019-10-10
谷歌模型
ICML 2024| 大語言模型助力基於CLIP的分佈外檢測任務
2024-07-01
模型
FreeRTOS——任務基礎知識
2018-11-29
nlp中的傳統語言模型與神經語言模型
2018-11-03
模型
ACL 2019開源論文 | 基於Attention的知識圖譜關係預測
2019-11-15
周明：預訓練模型在多語言、多模態任務的進展
2020-09-18
模型
如何用最強模型BERT做NLP遷移學習？
2019-02-03
模型遷移學習
c語言基礎知識
2018-08-02
C語言
2018年最強自然語言模型 Google BERT 資源彙總
2019-03-03
模型Go
知識增強的預訓練語言模型系列之KEPLER：如何針對上下文和知識圖譜聯合訓練
2022-01-24
模型
EMNLP 2019 常識資訊增強的事件表示學習
2019-09-16
事件
領域知識增強的預訓練語言模型在藥電商搜尋領域的實踐
2023-01-31
模型
超越CVPR 2024方法，DynRefer在區域級多模態識別任務上，多項SOTA
2024-06-20
覆蓋40種語言：谷歌釋出多語言、多工NLP新基準XTREME
2020-04-14
谷歌REM
c語言基礎知識3
2020-11-11
C語言
組合語言-基礎知識
2021-04-01
組合語言
ChineseGLUE：為中文NLP模型定製的自然語言理解基準
2019-10-23
模型
基於Python和TensorFlow實現BERT模型應用
2024-06-26
Python模型
【freertos】003-任務基礎知識
2022-03-28
CNN也能用於NLP任務，一文簡述文字分類任務的7個模型
2018-07-04
CNN文字分類模型
pytorch中：使用bert預訓練模型進行中文語料任務，bert-base-chinese下載。
2020-11-30
PyTorch模型
基於jQuery及騰訊NLP AI平臺的Laravel多語言站點實踐
2020-12-27
jQueryAILaravel
講堂丨周明：預訓練模型在多語言、多模態任務的進展
2020-09-11
模型

ACL 2019 | 基於知識增強的語言表示模型，多項NLP任務表現超越BERT

論文動機

模型結構

訓練細節

實驗結果

總結

相關文章