中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

AIBigbull2050發表於2019-11-06


改進策略簡單有效、收斂速度快,同時小資料效果出色。

這就是 中文預訓練模型ZEN

在中文任務中,ZEN不僅效能優於BERT,也比之前中文預訓練模型更好。

可以說是目前全球中文領域最佳預訓練模型。

而且現在,ZEN開源了。原始碼和訓練好的模型均已釋出,未來還承諾會有更大資料和其他語言版本迭代上新。

詳情我們展開往下說。


中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品


ZEN因何而生

隨著BERT(Devlin et al., 2018)等一系列預訓練模型的出現,該型別上下文相關表徵方法受到了自然語言處理領域持續大範圍的關注。

這些預訓練模型帶來的好處是顯而易見:

一方面,它們可以利用大規模無標註純文字語料進行學習;

另一方面,它們是對於文字的有效表徵,並且大量實驗表明,基於預訓練模型的各類NLP模型相比於以前的方法能帶來巨大的效能提升。

一般來說,預訓練模型研究通常分為兩個步驟:第一步是預訓練 (pre-training),第二步是微調整 (fine-tune)。

其中, 預訓練是指通過在大規模無標註的語料上進行無監督訓練,來學習通用的語言表達和上下文行文特點。

微調整指在特定的任務上,再次利用任務資料訓練和調整預訓練模型引數的過程。

目前,大多數中文預訓練模型基本上沿用了英文模型的做法,聚焦於小顆粒度文字單元(字)的輸入。

然而,與英文相比,中文沒有空格等明確的詞語邊界。

這個特點使得很多文字表達中存在的交叉歧義也被帶入了以字為序列的文字編碼中,使得模型更難從單字的序列中學習到大顆粒度文字蘊含的語義資訊,例如雙字或者多字詞的整體含義等。

雖然通過大規模文字建模可以一定程度上區分不同上下文環境的語義,但是依然沒有充分並顯式地利用預訓練和微調整語料中經常出現的詞、短語、實體等更大顆粒度的資訊。

目前很多模型的解決方法依然是遵循傳統BERT模型的遮蓋(masking)策略,例如採用多層(詞,短語等)遮蓋策略來彌補這一缺陷。

然而遮蓋策略依然只是一種弱監督學習方法,用於學習詞邊界資訊含有諸多問題:

  • 第一,資訊的質量無法得到保證,例如BERT-wwm(Cui et al., 2019)的效果依賴於外部中文分詞的質量;
  • 第二,因為基於遮蓋方式訓練存在一個基礎難題,即遮蓋過程在訓練中存在,但是在測試過程中並不存在,因此直接利用遮蓋方式學習的詞和短語資訊會導致訓練和測試過程的不匹配。

因此,如果能夠有效整合大顆粒度文字的資訊,並且在訓練和測試過程中顯式地加入這樣的資訊將有助於提升模型的表徵能力。

於是,基於BERT的n-gram增強中文文字編碼器ZEN,由此而生。

它可以顯式地結合潛在詞語的邊界資訊來幫助模型更好地對文字進行表徵。ZEN有兩大優勢:

簡單有效。從資料上看,與其他模型引入更多資料不同,ZEN僅僅基於中文維基百科進行訓練。

ZEN不需要更多的資料集,但是卻顯示出了與其他模型相當的效果。從模型上看,引入n-gram編碼器的方式簡單靈活,不需要其他繁雜的預訓練優化方式。

收斂迅速。因為模型結構簡單,實驗表明相比於原生BERT,ZEN模型收斂速度明顯提高,在更短的時間內取得了更好的效果。這對於資源緊張的研究人員來講,無疑是一個好訊息。

另外,在涵蓋詞彙級和句子級兩個層級的七大經典中文語言處理任務中——包括中文分詞(CWS),詞性標註(POS),命名實體識別(NER),文字分類(DC),情感分類(SA),語義匹配(SPM),自然語言推理(NLI),ZEN在七個下游任務上都帶來了顯著的提升。同時本文還在小規模資料集上進行了實驗,模擬了只有少量預訓練資料語料的場景。

而且ZEN如此效果,也展示了未來應用到其他文字受限領域的潛力,比如醫療。

同時,該研究中加入大顆粒度文字的方式是一種通用的增強方式,未來可在中文之外的其他語言上也得到應用。

具體模型

ZEN的模型架構如圖所示:

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

△ZEN 模型架構圖


N-gram 抽取

首先,利用已有的預訓練語料,基於頻率來抽取n-gram,構造n-gram 詞彙表(lexicon)。

其次,模型在將單字的序列作為輸入的同時,也將出現的n-gram作為輸入標記。利用已有的詞彙表,對預訓練資料中的每一個輸入,抽取句中出現的n-gram。

N-gram 編碼

給定一個輸入句子相應的多個n-gram,本文利用了一個6層的transformer結構作為n-gram encoder,來對輸入的n-gram提取特徵進行編碼。n-gram的嵌入向量經過n-gram encoder,得到n-gram的表示。

有了n-gram的表示之後,ZEN將字(Character)的表示與每個字對應的n-gram向量表示結合起來,在輸出端相加,並一起被輸入至後續結構之中。

結合n-gram和字編碼的預訓練

如圖1所示,輸入的帶n-gram標記的句子首先會經過嵌入層 (Embedding Layer)。在這一層裡,每個輸入的單字和n-gram會被替換成嵌入矩陣中對應位置的向量。

與此同時,每個向量會被加上一個Positional Encoding,用來表示其在句子之中出現的位置。

之後,字的嵌入向量會被輸入Character Encoder,進行計算並得到每個字在這一層的向量表達。

與此同時,n-gram的嵌入向量會被輸入n-gram encoder。兩部分輸出會被同時輸入attention encoder。

模型的最末端會被接入全連線層和Softmax層結構來幫助完成預訓練。

實驗結果

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

如上圖,ZEN的總體效能及其與現有模型在七項NLP任務上的比較情況。

文章對BERT和ZEN兩個模型分別實現了兩組設定:R(隨機初始化) 和 P(基於谷歌開源的BERT中文模型進行初始化)。

實驗結果表明,在兩組設定上,ZEN都取得了比BERT更好的效能。

同時,ZEN與現有的其他模型在七個任務上進行了比較,ZEN取得了包括CWS、POS、NER、DC、SPM在內的五個任務上最好的結果。

在僅僅利用中文維基百科,沒有其他語料的前提下,在情感分類和自然語言推理任務上也達到了相當不錯的表現。

分析討論

小資料集潛力

除了以上實驗,該研究還探究了模型在小資料集上的潛力。

考慮到目前的預訓練模型使用了大型的訓練語料,但是對於很多特殊的領域,大型資料集很難獲取。

因此本文抽出1/10的中文維基百科語料,來模擬了一種語料有限的場景,目的是探究ZEN在小資料集上的潛力。

實驗結果如下圖所示,在全部七個任務上,ZEN都明顯優於BERT。這表明ZEN在資料有限的場景下,具有更大的潛力。


中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

△BERT和ZEN利用小語料訓練, 在七項NLP任務上的表現


收斂速度

中文分詞和情感分類兩個任務被用於該分析的探測任務,來探究BERT與ZEN的收斂速度造成在這些任務上效能的差異。

兩個任務上的實驗都表明,ZEN可以在更少的迭代次數情況下達到更高的效能。

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

如上圖,BERT與ZEN在中文分詞任務(左圖)和情感分類任務(右圖)收斂速度的比較情況。

熱圖分析

通過熱度圖,還通過實驗分析了兩個案例,將n-gram encoder的注意力機制視覺化出來。

通過熱度圖可以清晰地看到,注意力會更多的關注在有效的n-gram。比如“波士頓”的權重明顯高於“士頓”。對於有劃分歧義的句子,n-gram encoder可以正確的關注到“速度”而不是“高速”。

更加有趣的是,在不同層次的encoder關注的n-gram也不同。更高層的encoder對於“提高速度”和“波士頓諮詢”這樣更長的有效n-gram分配了更多的權重。

這表明,結合n-gram的方法的預訓練,不僅僅提供給文字編碼器更強大的文字表徵能力,甚至還間接產生了一種文字分析的有效方法。這個案例分析暗示我們,或許將來可以用類似地方法提供無指導的文字抽取和挖掘

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

△案例分析-熱度圖


結語

所以通過研究解析,也可以看出,ZEN對高概率成詞的n-gram新增了獨有的編碼和向量表示,此模型可以提供更強的文字的編碼能力和理解能力。

在多箇中文自然語言任務之上都有比基於單字的語言模型有更好的表現效果。

與之前的中文預訓練模型相比,ZEN的優勢在於提出的改進策略簡單有效並且收斂速度快,同時在有限語料的基礎上可以達到更大規模語料的訓練效果。

相比於大多數已有研究對預訓練策略的改進,ZEN是為數不多的對預訓練模型架構進行了改進的工作。

這也帶來更進一步的啟示,可以深度探索已有模型的內部機制,進一步分析文字及其表徵模型中蘊含的Zen——禪意。

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品


作者

最後,簡單介紹下ZEN模型背後的團隊。

這是創新工場AI工程院和香港科技大學的聯合研究。

或許對於VC身份的創新工場你已熟悉,但如此深入開展科研和前沿技術開源的創新工場旗下組織,你可能還不那麼熟悉。


中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

創新工場AI工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向發展。

而且這也不是創新工場AI工程院首次成果展示,光2019年,其聯合國內外科研高校,就有過8篇頂會論文研究披露。

包含NeurIPS 2019、ICCV、IROS、EMNLP、IEEE TVCG等在內的頂會和頂級期刊,均有創新工場AI工程院的身影。

中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品

此外值得一體的是,今年創新工場AI工程院還有一篇區塊鏈技術論文入選計算機網路頂級學術會議NSDI,這是國際主流學術界首次認可區塊鏈擴容方案的相關研究,是該會議今年錄取的唯一一篇與區塊鏈相關的論文。

創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。

領軍人才方面,香港科技大學教授、前騰訊AI Lab主任張潼目前是創新工場科研合夥人、創新工場大灣區AI研究院名譽院長。

香港科技大學也是創新工場的重要合作機構之一,今年3月20日,香港科技大學和創新工場還聯合宣佈成立計算機感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。

按照官方披露,目前創新工場AI工程院設有醫療AI、機器人、機器學習理論、計算金融、計算機感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。


中文預訓練模型ZEN開源,效果領域內最佳,創新工場港科大出品


目標是培養人工智慧高階科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。

所以怎麼說呢?在新技術週期時代,創新工場可能是全世界最硬核、最願意為技術研發投入的投資機構了。

此次開源的中文預訓練模型ZEN,就是一個更好的開始。

對於學術科研領域來說,有錢有心的投資機構們願意參與推動這樣的技術進步,再好不過啦。

傳送門

ZEN開源地址:

https://github.com/sinovation/zen

論文地址:

http://arxiv.org/abs/1911.00720

—   —



https://www.toutiao.com/i6755684616708817421/




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2662847/,如需轉載,請註明出處,否則將追究法律責任。

相關文章