「四大模型」革新NLP技術應用,揭秘百度文心ERNIE最新開源預訓練模型

機器之心發表於2021-05-25

機器之心釋出

機器之心編輯部

在 5 月 20 日結束的 2021 深度學習開發者峰會 WAVE SUMMIT 上,百度文心 ERNIE 開源了四大預訓練模型。本文對這四大開源預訓練模型進行了詳細的技術解讀。

2019 年以來,NLP 預訓練模型在技術創新和工業應用上不斷取得突破,但當前預訓練模型仍有一些痛點困擾著開發者。

  • 僅考慮單一粒度語義建模,缺乏多粒度知識引入,語義理解能力受限;
  • 受限於 Transformer 結構的建模長度瓶頸,無法處理超長文字;
  • 聚焦語言等單一模態,缺乏工業真實應用場景針對多個模態如語言、視覺、聽覺資訊的聯合建模能力。

5 月 20 日舉辦的 2021 深度學習開發者峰會 WAVE SUMMIT 上,依託飛槳核心框架,百度文心 ERNIE 最新開源四大預訓練模型:多粒度語言知識增強模型 ERNIE-Gram、長文字理解模型 ERNIE-Doc、融合場景圖知識的跨模態理解模型 ERNIE-ViL、語言與視覺一體的模型 ERNIE-UNIMO。

針對當前預訓練模型現存的難點痛點,此次文心 ERNIE 開源的四大預訓練模型在文字語義理解、長文字建模和跨模態理解三大領域取得突破,擁有廣泛的應用場景和前景,進一步助力產業智慧化升級。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型
  • 文心 ERNIE 開源版地址:https://github.com/PaddlePaddle/ERNIE
  • 文心 ERNIE 官網地址:https://wenxin.baidu.com/

一、多粒度語言知識增強模型 ERNIE-Gram

從 ERNIE 模型誕生起,百度研究者們就在預訓練模型中引入知識,透過知識增強的方法提升語義模型的能力。本次釋出的 ERNIE-Gram 模型正是透過顯式引入語言粒度知識,從而提升模型的效果。具體來說,ERNIE-Gram 提出顯式 n-gram 掩碼語言模型,學習 n-gram 粒度語言資訊,相對連續的 n-gram 掩碼語言模型大幅縮小了語義學習空間( V^n → V_(n-gram),其中 V 為詞表大小,n 為建模的 gram 長度),顯著提升預訓練模型收斂速度。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

圖 1-1:連續 n-gram 掩碼語言模型 vs 顯式 n-gram 掩碼語言模型

此外,在顯式 n-gram 語義粒度建模基礎上,ERNIE-Gram 提出多層次 n-gram 語言粒度學習,利用 two-stream 雙流機制,實現同時學習 n-gram 語言單元內細粒度(fine-grained)語義知識和 n-gram 語言單元間粗粒度(coarse-grained)語義知識,實現多層次的語言粒度知識學習。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型


圖 1-2:n-gram 多層次語言粒度掩碼學習。

ERNIE-Gram 在不增加任何計算複雜度的前提下,在自然語言推斷任務 、短文字相似度任務、閱讀理解任務等多個典型中文任務上,效果顯著超越了業界主流開源預訓練模型。此外,ERNIE-Gram 英文預訓練模型也在通用語言理解任務、閱讀理解任務上效果超越主流模型。

ERNIE-Gram 的方法被 NAACL 2021 主會長文錄用,論文地址:https://arxiv.org/abs/2010.12148

二、長文字理解模型 ERNIE-Doc

Transformer 是 ERNIE 預訓練模型所依賴的基礎網路結構,但由於其計算量和空間消耗隨建模長度呈平方級增加,導致模型難以建模篇章、書籍等長文字內容。受到人類先粗讀後精讀的閱讀方式啟發,ERNIE-Doc 首創回顧式建模技術,突破了 Transformer 在文字長度上的建模瓶頸,實現了任意長文字的雙向建模。

透過將長文字重複輸入模型兩次,ERNIE-Doc 在粗讀階段學習並儲存全篇章語義資訊,在精讀階段針對每一個文字片段顯式地融合全篇章語義資訊,從而實現雙向建模,避免了上下文碎片化的問題。

此外,傳統長文字模型(Transformer-XL 等)中 Recurrence Memory 結構的迴圈方式限制了模型的有效建模長度。ERNIE-Doc 將其改進為同層迴圈,使模型保留了更上層的語義資訊,具備了超長文字的建模能力。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

圖 2-1:ERNIE-Doc 中的回顧式建模與增強記憶機制。

透過讓模型學習篇章級文字段落間的順序關係,ERNIE-Doc 可以更好地建模篇章整體資訊。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

圖 2-2:篇章重排序學習。

ERNIE-Doc 顯著提升了長文字的建模能力,可以解決很多傳統模型無法處理的應用難題。例如在搜尋引擎中,ERNIE-Doc 可以對網頁整體理解,返回使用者更加系統的結果。在智慧創作中,ERNIE-Doc 可以用來生成更加長篇、語義豐富的文章。

超長文字理解模型 ERNIE-Doc 在包括閱讀理解、資訊抽取、篇章分類、語言模型等不同型別的 13 個典型中英文長文字任務上取得最優的效果。

ERNIE-Doc 的方法被 ACL 2021 主會長文錄用,論文連結:https://arxiv.org/abs/2012.15688

三、融合場景圖知識的跨模態理解模型 ERNIE-ViL

跨模態的資訊處理能力需要人工智慧模型深入理解並綜合語言、視覺、聽覺等模態的資訊。當前,基於預訓練的跨模態語義理解技術,透過對齊語料學習跨模態的聯合表示,將語義對齊訊號融合到聯合表示中,從而提升跨模態語義理解能力。ERNIE-ViL 提出了知識增強的視覺 - 語言預訓練模型,將包含細粒度語義資訊的場景圖(Scene Graph)知識融入預訓練過程,構建了物體預測、屬性預測、關係預測三個預訓練任務,使得模型在預訓練過程中更加關注細粒度語義知識,學習到能夠刻畫更好跨模態語義對齊資訊,得到更好的跨模態語義表示。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

圖 3-1:知識增強的跨模態預訓練 ERNIE-ViL 框架。

ERNIE-ViL 首次將場景圖知識融入跨模態模型的預訓練過程,為跨模態語義理解領域研究提供了新的思路。該模型在視覺問答、視覺常識推理、引用表示式理解、跨模態文字 & 影像檢索等 5 個典型跨模態任務上取得了領先的效果。ERNIE-ViL 模型也逐步在影片搜尋等真實工業應用場景中落地。

ERNIE-ViL 的方法被 AAAI-2021 主會長文錄用,論文地址:https://arxiv.org/abs/2006.16934

四、語言與視覺一體的模型 ERNIE-UNIMO

大資料是深度學習取得成功的關鍵基礎之一。當前的預訓練方法,通常分別在各種不同模態資料上分別進行,難以同時支援各類語言和影像的任務。基於深度學習的 AI 系統是否也能像人一樣同時學習各種單模、多模等異構模態資料呢?如果能夠實現,無疑將進一步開啟深度學習對大規模資料利用的邊界,從而進一步提升 AI 系統的感知與認知的通用能力。

為此,語言與視覺一體的模型 ERNIE-UNIMO 提出統一模態學習方法,同時使用單模文字、單模影像和多模圖文對資料進行訓練,學習文字和影像的統一語義表示,從而具備同時處理多種單模態和跨模態下游任務的能力。此方法的核心模組是一個 Transformer 網路,在具體訓練過程中,文字、影像和圖文對三種模態資料隨機混合在一起,其中影像被轉換為目標(object)序列,文字被轉換為詞(token)序列,圖文對被轉換為目標序列和詞序列的拼接。統一模態學習對三種型別資料進行統一處理,在目標序列或者詞序列上基於掩碼預測進行自監督學習,並且基於圖文對資料進行跨模態對比學習,從而實現影像與文字的統一表示學習。進一步的,這種聯合學習方法也讓文字知識和視覺知識互相增強,從而有效提升文字語義表示和視覺語義表示的能力。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

此方法在語言理解與生成、多模理解與生成,4 類場景、共 13 個任務上超越主流的文字預訓練模型和多模預訓練模型,同時登頂權威視覺問答榜單 VQA、文字推理榜單 aNLI。首次驗證了透過非平行的文字與影像單模資料,能夠讓語言知識與視覺知識相互增強。

此工作被 ACL2021 主會長文錄用, 論文地址:https://arxiv.org/abs/2012.15409

五、破解 NLP 技術難題,助力產業智慧化

文心 ERNIE 全新開源釋出 4 大預訓練模型,不斷推動 NLP 模型技術研究層面的創新與應用。

語言與知識技術被看作是人工智慧認知能力的核心。2019 年以來,百度憑藉在自然語言處理領域的深厚積累取得了系列世界突破,釋出了文心 ERNIE 語義理解平臺,該平臺廣泛用於金融、通訊、教育、網際網路等行業,助力產業智慧化升級。

四大模型革新NLP技術應用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新開源預訓練模型

作為「人工智慧皇冠上的明珠」,NLP 領域向來是人工智慧技術研發與落地實踐的前沿。百度文心平臺基於領先的語義理解技術,幫助企業在 NLP 賽道上跨過技術、工具、算力、人才等門檻,對開發者和企業進行開放,全面加速 NLP 技術助力全產業智慧化升級程式,為 AI 工業大生產插上智慧的「翅膀」。


相關文章