AAAI 2020 | 基於多工自監督學習的文字順滑研究

哈工大SCIR發表於2020-01-14

論文名稱:Multi-Task Self-Supervised Learning for Disfluency Detection
論文作者:王少磊,車萬翔,劉琦,秦鵬達,劉挺,王威廉
原創作者:王少磊

下載連結:http://ir.hit.edu.cn/~slwang/AAAI-WangS.1634.pdf

1 文字順滑任務簡介

自動語音識別(ASR)得到的文字中,往往含有大量的不流暢現象。這些不流暢現象會對後面的自然語言理解系統(如句法分析,機器翻譯等)造成嚴重的干擾,因為這些系統往往是在比較流暢的文字上訓練的。不流暢現象主要分為兩部分,一部分是ASR系統本身識別錯誤造成的,另一部分是speaker話中自帶的。NLP領域主要關注的是speaker話中自帶的不流暢現象,ASR識別錯誤則屬於語音識別研究的範疇。順滑 (Disfluency Detection)任務的目的就是要識別出speaker話中自帶的不流暢現象。

AAAI 2020 | 基於多工自監督學習的文字順滑研究

圖1 順滑示例 

Speaker話中自帶的不流暢現象主要分為兩大類,分別為Filler型別和Edit型別。以英文為例,Filler型別主要包括“uh”“oh”等語氣詞,以及“so”“well”等話語標記語。Filler型別的一個特點是其對應的不流暢部分屬於一個封閉的短語集合,因此,利用簡單的規則或者機器學習模型就可以很好地識別Filler型別。Edit型別主要包括重複,以及被後面的短語所糾正的部分。圖1是一個英文順滑任務的示例。在例句中,“um”“I mean”屬於Filler型別,“to Boston”則屬於Edit型別,其被後面的“to Denver”所糾正。Edit型別是順滑任務中最難處理的型別,因為Edit型別的短語長度不固定,出現的位置比較靈活,甚至會出現巢狀的結構。因此,順滑相關的研究主要集中Edit型別的處理上(後面的內容預設處理的是Edit型別)。對於順滑任務,目前主要用到的語料是English Switchboard資料,在中文上還沒有公開的語料。

2 任務動機

目前大部分在文字順滑任務上的工作都嚴重依賴人工標註資料。為了減少對有標註資料的依賴,我們嘗試用監督學習的方法來處理文字順滑任務。

監督學習可以看作是一種特殊的有監督學習,跟傳統有監督學習方法的主要區別是其用到的標籤不是通過人工標註的,而是通過一定的方式自動產生的。例如將一張圖片切分成若干個子塊,然後將隨機打亂順序的子塊作為輸入,正確的排列順序就可以作為有監督的標籤。在自然語言處理領域,詞嵌入語言模型學習等都可以歸類於監督學習。受相關研究工作的啟發,我們提出了兩種針對文字順滑任務的監督學習任務,實驗結果證明我們的方法能有效減少對有標註資料的依賴,只利用1%左右的有標註資料就能實現與之前最好方法類似的效能。

3 方法介紹

如圖2所示,我們的方法主要由三部分組成,第一部分是構造偽資料,第二部分是基於構造的偽資料,對兩個自監督任務進行預訓練,第三部分則是基於預訓練的結果,在人工標註的文字順滑資料上進行微調。

AAAI 2020 | 基於多工自監督學習的文字順滑研究

圖2 方法整體框架 

3.1 構造偽資料

我們構造了兩類偽資料,AAAI 2020 | 基於多工自監督學習的文字順滑研究是在正常句子(取自新聞語料)基礎上隨機增加一些詞,AAAI 2020 | 基於多工自監督學習的文字順滑研究是在正常句子基礎上隨機刪除一些詞。

對於AAAI 2020 | 基於多工自監督學習的文字順滑研究型別,我們主要採用兩種方式新增擾動:

  • Repetition(k): 從第k個詞的位置開始隨機選取1到6個詞進行重複操作。

  • Inserting(k) : 在第k個位置之前隨機插入1到6個詞(從新聞語料中選取的N-gram)

對於一個正常的句子,我們一般隨機選取1到3個位置,然後隨機選取一種方式新增擾動。需要注意的是,新增擾動後的句子也有一定機率是正常的句子(比如在名詞之前隨機新增了一些形容詞),這樣可能會帶來額外的噪聲。我們在構造資料的時候並沒有針對這種情況進行特殊處理,因為在資料量足夠大的時候,這些噪聲帶來的影響應該會非常小。

對於AAAI 2020 | 基於多工自監督學習的文字順滑研究型別,我們一般隨機選取1到3個位置,然後針對每個位置,隨機刪除掉1到6個詞。

需要注意的是,在我們的實驗過程當中,一個句子一般只被用來構造一種型別的非順滑句子,以防止模型學習到一些統計性規律(比如中間長度的句子一般是順滑的)。

3.2 自監督任務以及微調

我們主要設計了兩種監督學習的任務,第一種是序列標註任務,第二種是句子對分類任務。

對於序列標註任務,首先將非順滑的句子AAAI 2020 | 基於多工自監督學習的文字順滑研究輸入到Transformer編碼器中,得到每個詞的表示AAAI 2020 | 基於多工自監督學習的文字順滑研究。訓練目標是識別出來被新增的非順滑詞,其中我們用標籤D表示該詞是被新增的冗餘詞,標籤O則表示該詞是原始句子中的詞。雖然AAAI 2020 | 基於多工自監督學習的文字順滑研究的資料分佈和實際的文字順滑資料分佈不同,但是其訓練目標都是通過刪除冗餘的詞來保持生成的句子的流暢性,所以我們認為該預訓練任務會對後續的文字順滑任務帶來很多有用的資訊。

句子對分類任務的輸入是兩個句子,其中一句話是正常的新聞句子,另一句是在該新聞句子基礎上構造的非順滑句子(AAAI 2020 | 基於多工自監督學習的文字順滑研究AAAI 2020 | 基於多工自監督學習的文字順滑研究)。訓練目標是識別出哪句話是正常的新聞句子。我們假定該任務能夠捕獲句子級的語法資訊,從而對後續的文字順滑任務帶來幫助。

如圖3所示,在預訓練的時候,我們採用多工學習的方法,同時對兩個自監督任務進行訓練。在輸入層和中間表示層,我們採用與BERT(Devlin et al., 2019) 類似的Transformer結構。在最後一步微調的時候,我們直接用預訓練時候的輸入層,中間表示層和序列標註的輸出層引數來初始化(圖3中黃色部分)。

AAAI 2020 | 基於多工自監督學習的文字順滑研究

圖3 模型結構

4 實驗結果及分析

4.1 實驗設定

我們在English Switchboard(SWBD)資料集上測試我們方法的效能。

對於偽資料部分,我們總共用到了1200萬的資料,其中300萬用來訓練序列標註任務,900萬用來訓練句子分類任務。我們將Transformer模型大小設定為512 hidden units, 8 heads, 6 hidden layers。

4.2 實驗結果

我們與五個目前效能最好的方法進行了比較,這些方法都依賴於大規模的人工標註資料和複雜的人工特徵。如表1所示,我們的方法優於之前最好的方法,獲得了90.2%的F1分數。特別是,當只用1%(1000句)的人工標註資料的情況下,我們的方法獲得了與以前效能最好的方法相接近的F1分數,這表明我們的自監督方法可以大大減少對人工標註資料的依賴。

表1  與之前方法對比。其中“Full”表示所有有標註資料進行微調,“1000sents”表示1%(1000句)有標註資料進行微調

AAAI 2020 | 基於多工自監督學習的文字順滑研究

4.3 與BERT模型對比

與BERT相比,我們的方法可以看作是一個針對特定任務的預訓練,本節主要對比我們模型和BERT模型在文字順滑任務上的效能。結果如表2所示,雖然我們的預訓練語料規模和模型引數都比BERT小,但是當用全部人工標註資料進行微調時,我們得到了與BERT相似的結果。特別是當只用1%(1000句)左右人工標註資料進行微調時,我們的方法比BERT要高3.7個點左右。最後,我們嘗試將我們模型和BERT模型結合起來,具體做法是在微調時,將我們模型和BERT模型的隱層輸出結合起來做序列標註任務,實驗結果證明模型結合之後能取得更高的效能,這也證明了我們的模型學習到了BERT之外的對順滑任務有幫助的資訊。

表2 與BERT對比   

AAAI 2020 | 基於多工自監督學習的文字順滑研究

5 總結

在本工作中,我們提出了兩個監督學習任務來緩解文字順滑任務對有標註資料的依賴。實驗結果證明我們的方法只利用1%左右的有標註資料就能實現與之前最好方法類似的效能,大大減輕了對有標註資料的依賴。

目前只是在英文資料上證明了我們工作的有效性,能否在中文等資料上取得好的效果還有待驗證。

參考文獻

[Devlin et al., 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL.

[Ferguson et al., 2015] James Ferguson, Greg Durrett, and Dan Klein. 2015. Disfluency detection with a semi-markov model and prosodic features. In Proceedings of NAACL, pages 257–262.

[Lou and Johnson, 2017] Paria Jamshid Lou and Mark Johnson. 2017. Disfluency detection using a noisy channel model and a deep neural language model. Proceedings of ACL.

[Wang et al., 2017] Shaolei Wang, Wanxiang Che, Yue Zhang, Meishan Zhang, and Ting Liu. 2017. Transition-based disfluency detection using lstms. In Proceedings of EMNLP, pages 2785–2794.

[Wu et al., 2015] Shuangzhi Wu, Dongdong Zhang, Ming Zhou, and Tiejun Zhao. 2015. Efficient disfluency detection with transition-based parsing. In Proceedings of ACL-IJCNLP 2015, pages 495–503. Association for Computational Linguistics.

[Zayats et al., 2016] Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. 2016. Disfluency detection using a bidirectional lstm. arXiv preprint arXiv:1604.03209.

相關文章