編者按:作為自然語言處理領域的國際頂級學術會議,ACL 每年都吸引了大量學者投稿和參會,今年的 ACL 大會已於5月22日至5月27日舉辦。值得注意的是,這也是 ACL 大會採用 ACL Rolling Review 機制後的首次嘗試。在此次會議中,微軟亞洲研究院有多篇論文入選,本文精選了其中的6篇進行簡要介紹,論文主題涵蓋了:編碼器解碼器框架、自然語言生成、知識神經元、抽取式文字摘要、預訓練語言模型、零樣本神經機器翻譯等。歡迎感興趣的讀者閱讀論文原文。
SpeechT5:語音和文字聯合預訓練的編碼器解碼器框架
論文連結:https://arxiv.org/abs/2110.07205
編碼器-解碼器框架廣泛應用於自然語言處理和語音處理領域,比如端到端的神經機器翻譯模型和語音識別模型。受 T5(Text-To-Text Transfer Transformer)在自然語言處理預訓練模型上應用成功的啟發,本文提出了一個統一語音模態和文字模態的聯合框架 SpeechT5,該框架探索了基於自監督語音和文字表示學習的編碼器-解碼器預訓練方法。
SpeechT5 包含一個共享的編碼器-解碼網路和對應模態的前處理/後處理網路,試圖通過編碼器-解碼器框架將不同的語音處理任務轉換成語音/文字到語音/文字的問題。利用大規模的未標註語音和文字資料,SpeechT5 統一了預訓練學習兩種模態的表示,以提高對語音和文字的建模能力。為了將文字和語音資訊對齊到統一的語義空間中,本文提出了一種跨模態的向量量化方法,該方法將語音和文字向量和潛在量化向量隨機混合,作為編碼器和解碼器之間的語義介面。研究員們在多種不同的語音處理任務上評估了所提出的 SpeechT5 模型,包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別,均顯示出該模型的有效性和優越性。
圖1:(a)是 SpeechT5 模型結構,該模型架構包含一個編碼器-解碼器模組和六個模態特定的前處理/後處理網路。(b)是聯合預訓練方法,通過在不同模態之間共享潛在量化向量,聯合預訓練方法搭建起了語音和文字之間的橋樑。
利用對比字首的可控自然語言生成
論文連結:https://arxiv.org/abs/2202.13257
為了指導大型預訓練語言模型的生成,之前的工作主要集中在直接微調語言模型或利用屬性分類模型來引導生成。Prefix-tuning (Li and Liang, 2021) 提出通過訓練字首(一個小規模的連續向量)來替代在下游生成任務上進行的微調。受此啟發,研究員們在本文中提出了一種用於控制 GPT2 生成的新型輕量級框架。該框架利用一組字首來引導自然語言文字的生成,每個字首都與一個被控制的屬性相對應。
與使用屬性分類模型或生成判別器相比,使用字首實現可控性具有以下優點:首先,它引入了更少的附加引數(在實驗中約為 GPT2 引數的 0.2%-2%)。其次,使用字首可以使推理速度與原始 GPT2 模型相媲美。與 Prefix-tuning 獨立訓練每個字首的方式不同,微軟亞洲研究院的研究員們認為屬性之間有相互關係(比如正面情感和負面情感是相互對立的關係),並且在訓練過程中學習這種關係將有助於提高字首的控制效果。因此,在該框架中,研究員們考慮了字首之間的關係並同時訓練了多個字首。本文提出了一種新的有監督訓練方法和一種新的無監督訓練方法來實現單屬性控制,而這兩種方法的結合則可以實現多屬性控制。單屬性控制任務(情緒控制、去毒化、主題控制)的實驗結果表明,研究員們提出的方法可以在保持較高語言質量的同時引導生成文字具備目標屬性。而多屬性控制任務(情感和主題控制)的實驗結果表明,用該方法訓練的字首可以同時成功地控制這兩個方面的屬性。
圖2: Prefix-tuning(上)和本文方法(下)在情感控制任務上的比較。實線箭頭表示訓練過程,虛線箭頭表示生成過程。在本文提出的框架中,訓練可以是有監督的、半監督的、或者無監督的。
預訓練 Transformers 中的知識神經元
論文連結:https://arxiv.org/abs/2104.08696
近年來,大規模預訓練語言模型被證明擁有較好的回憶預訓練語料中所暴露的知識的能力。但現有的知識探針工作,如 LAMA,僅僅關注評估知識預測的整體準確率。本文試圖對預訓練語言模型進行更深入的研究,通過引入知識神經元的概念,來探究事實型知識是如何在模型中進行儲存的。
首先,如圖3所示,研究員們把 Transformer 中的 FFN 模組類比為鍵-值記憶模組。具體來說,FFN 中的第一個線性層可以被看做一系列鍵,而第二個線性層可以被看做一系列對應的值。一個隱向量先跟第一個線性層中的鍵通過內積來計算出一系列中間神經元的啟用值,然後用這個啟用值作為權重,來對第二個線性層中的值進行加權求和。研究員們假設知識神經元就存在於這些中間神經元之中。
圖3:研究員們把 FFN 模組類比為鍵-值記憶模組,而知識神經元存在於其中
在以上類比和假設的基礎之上,研究員們提出了一套檢測知識神經元的方法。基於知識填空的任務,研究員們先通過知識歸因演算法來找到對最終知識表達最重要的神經元,然後再通過一個知識神經元精煉的步驟,進一步提取出跟知識表達最為相關的神經元。
研究員們通過實驗驗證了知識神經元跟知識表達之間的關係:正向的,研究員們驗證了知識神經元的啟用值可以直接影響事實型知識的表達;反向的,研究員們驗證了知識神經元更容易被表達知識的文字所啟用。此外,基於知識神經元,本文還提出了兩個初步的知識編輯方法,通過修改知識神經元對應的 FFN 中的引數,可以一定程度上對預訓練模型中的一條知識進行更新,也可以從模型中刪除一整類知識。
基於神經標籤搜尋的零樣本多語言抽取式摘要
論文連結:https://arxiv.org/abs/2204.13512
抽取式文字摘要目前在英文上已經取得了很好的效能,這主要得益於大規模預訓練語言模型和豐富的標註語料。但是對於其他小語種語言,目前很難獲得大規模的標註資料。因此,本文的研究內容是基於 Zero-Shot 的多語言抽取式文字摘要,具體方法是使用在英文上預訓練好的抽取式文字摘要模型來在其他低資源語言上直接進行摘要抽取。針對多語言 Zero-Shot 中的單語言標籤偏差問題,本文提出了多語言標籤(Multilingual Label)標註演算法和神經標籤搜尋模型 NLSSum。
多語言標籤是通過機器翻譯和雙語詞典替換等無監督的方式所構造的標籤,如圖4所示,其中包含a、b、c、d四組標籤集合,它們分別通過不同語言間的翻譯和詞替換來構造。通過這種方式構造的標籤能夠在標籤中融入更多跨語言資訊。
圖4:多語言抽取式摘要標籤構建。a為在英文上獲得的標籤集合,b、c、d為對英文訓練集進行機器翻譯(MT)和雙語詞典替換(WR)而獲得的標籤集合。
NLSSum 通過神經搜尋的方式來對多語言標籤中不同標籤集合賦予不同的權重,並最終得到每個句子加權平均的標籤。本文就是使用這種最終的標籤在英文資料集上訓練抽取式摘要模型(見圖5)。其中,每個句子的標籤得分綜合考慮了句子級別權重預測器 T_α 以及標籤集合級別權重預測器 T_β 的結果。和單語言標籤相比,多語言標籤中存在更多的跨語言語義和語法資訊,因此 NLSSum 模型在資料集 MLSUM 的所有語言資料集上均大幅度超越了基線模型的分數,甚至超越了未使用預訓練模型的有監督方法(Pointer-Generator)。
圖5:多語言神經標籤搜尋摘要模型
本文中,研究員們還通過視覺化分析進一步研究了不同語言間重要資訊的分佈位置,可以發現英文語言中重要資訊的分佈較為靠前,其他語言中重要資訊的分佈相對比較分散,而這也是本文多語言標籤能夠提升模型效能的重要原因。
NoisyTune: 加一點噪聲就能幫你更好地微調預訓練語言模型
論文連結:https://arxiv.org/abs/2202.12024
預訓練語言模型是近年來自然語言處理領域備受關注的熱門技術之一。在下游任務中如何有效地微調預訓練語言模型是其成功與否的關鍵。目前已有的許多方法直接利用下游任務中的資料來微調預訓練語言模型,如圖6(a)所示。但是,研究員們認為語言模型也存在過擬合預訓練任務和資料的風險。由於預訓練任務與下游任務通常存在鴻溝,已有的微調方法較難快速地從預訓練空間遷移到下游任務空間,特別是當下遊任務的訓練資料較為稀少時。針對這一問題,微軟亞洲研究院的研究員們提出了一種簡單而有效的解決方案,即在微調之前新增少量噪聲來擾動預訓練語言模型,名為 NoisyTune。其正規化如圖6(b)所示。
圖6:標準語言模型微調的方式與本文所提出方式的對比
研究員們認為,對 PLM 新增少量噪聲可以幫助模型“探索”更多潛在的特徵空間,從而減輕對預訓練任務和資料的過擬合問題。為了更好地保留語言模型的知識,研究員們提出了一種根據引數矩陣的方差新增均勻噪聲的方法,這種方法能夠根據不同型別引數的特點新增合適強度的噪聲,其公式如下。其中超引數λ控制了新增噪聲的強度。
研究員們在英文的 GLUE 資料集與多語言的 XTREME 資料集上開展了實驗。結果顯示,NoisyTune 可以有效為不同型別的語言模型帶來提升,特別是對規模相對較小的資料集提升幅度更大。
此外,研究員們還進一步探究了新增不同噪聲對於 NoisyTune 的影響,結果發現加入全域性統一分佈的噪聲往往對模型效能有一定損害,而根據引數矩陣的偏離程度新增效果更佳。另外,可能由於高斯噪聲缺乏硬性範圍約束,新增均勻分佈噪聲的模型效果比高斯噪聲更好。
圖7:不同噪聲型別對 NoisyTune 的影響
零樣本神經機器翻譯的跨語言遷移
論文連結:https://arxiv.org/abs/2110.08547
本文證明了在零樣本神經網路機器翻譯中,合適的多語言預訓練和多語言微調方法對提高跨語言遷移的能力都是至關重要的。根據這個動機,研究員們提出了 SixT+,一個強大的多語言神經機器翻譯模型,該模型只使用了六種語言的平行語料進行訓練,卻能夠同時支援100種語言的翻譯。
SixT+ 使用 XLM-R large 初始化 解碼器嵌入和整個編碼器,然後使用簡單的兩階段訓練策略訓練 編碼器和解碼器。SixT+ 在不少翻譯方向上都取得了很好的結果,效能明顯優於 CRISS 和 m2m-100 這兩個強大的多語言神經機器翻譯系統,其平均增長分別為7.2和5.0 BLEU。
此外,SixT+ 也是一個很好的預訓練模型,可以進一步微調以適應其他無監督任務。實驗結果證明,在斯洛維尼亞語和尼泊爾語這兩個語言的翻譯上,SixT+ 比最先進的無監督機器翻譯模型的平均 BLEU 高出1.2以上。SixT+ 同樣可以應用於零樣本跨語言摘要,它的平均效能顯著高於 mBART-ft,平均可以提高 12.3 ROUGE-L。研究員們還對 SixT+ 進行了詳細分析,以瞭解 SixT+ 的關鍵組成部分,包括多語言平行資料的必要性,位置分離編碼器及其編碼器的跨語言遷移能力。
圖8:研究員們提出的兩階段訓練框架,利用多語言預訓練模型 XLM-R 建立跨語言生成模型。圖中藍色的冰塊表示用 XLM-R 初始化並凍結,而紅色的火焰則代表隨機初始化或從第一階段開始初始化。
長按識別二維碼
關注微軟中國MSDN