曉查 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
BERT、GPT-2、XLNet等通用語言模型已經展現了強大的威力,它們可以應付各類任務,比如文字生成、問答。當這些模型對各種語言任務進行微調時,可以達到SOTA效能。
以上這些NLP模型都是“通才”,雖然全面,但在面向特定任務時需要微調,訓練資料集也十分龐大,非一般人所能承受。
如果開發一個非通用NLP模型,專門針對某項具體任務,在降低訓練成本的同時,效能會不會提高呢?
這就是谷歌釋出的“天馬”( PEGASUS)模型,它專門為機器生成摘要而生,重新整理了該領域的SOTA成績,並被ICML 2020收錄。
“天馬”模型僅使用1000個樣本進行訓練,就能接近人類摘要的水平,大大減少了對監督資料的需求,創造了低成本使用的可能性。
從填空到生成摘要
PEGASUS的全稱是:利用提取的間隙句進行摘要概括的預訓練模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization)。就是設計一種間隙句生成的自監督預訓練目標,來改進生成摘要的微調效能。
在之前的NLP研究中,自監督預訓練對下游的目標並不清楚,可能是文字生成、也可能是摘要提取,模型傾向於通用性。
而來自谷歌的研究者認為,自監督預訓練目標越接近最終的下游任務,微調效能越好。
那論文標題中的間隙句(Gap-sentences)又是什麼意思?
在“天馬”模型的預訓練中,研究者從一段文件中刪掉一些句子,讓模型進行恢復任務。這些隔空刪掉的句子即為間隙句。
這樣一項具有挑戰性的任務促使模型學習發現一般事實的能力,以及學習如何提取從整個文件中獲取的資訊。
谷歌發現,選擇“重要”句子去遮擋效果最好,這會使自監督樣本的輸出與摘要更加相似。
作者選擇了12個不同資料集,內容豐富多樣,包括新聞、科學論文、專利檔案、短篇小說、電子郵件、法律檔案和使用說明,表明該模型框架適用於各種主題。
與谷歌之前提出的T5對比,引數數量僅為T5的5%。
谷歌根據ROUGE標準對輸出結果進行評判,透過查詢與文件其餘部分最相似的句子來自動識別這些句子。
ROUGE使用n元語法重疊來計算兩個文字的相似度,分數從0到100。
1000個訓練樣本即超過人類
儘管PEGASUS在大型資料集上表現出了卓越的效能,但令人驚訝的是,“天馬”模型並不需要大量的樣本來進行微調,就可以達到近乎SO他的效能。
下圖展示了在四個選定的摘要資料集中,ROUGE得分與監督樣本數量的關係。虛線表示具有全監督但沒有預訓練的Transformer編碼器-解碼器的效能。
與基線相比,即使僅用1000個微調樣本,“天馬”在大多數任務中的效能還是要好一些。要考慮到,在某些實際情況下,樣本數量還要多幾個數量級。
這種“樣本效率”極大地提高了文字摘要模型的實用性,因為它大大降低了監督資料收集的規模和成本。
除了機器給出的ROUGE評分外,谷歌還進行了一項鑑別摘要的“圖靈測試”。
谷歌將模型生成的摘要和人類提取的摘要放在一起,給使用者進行評估。在3個不同資料集上進行的實驗表明,打分的人有時會更喜歡機器生成的摘要。
當然,“天馬”模型並非沒有缺點,谷歌就找到了一個bug。
作者從XSum資料集中尋找了一段話,其中提到了英國4艘護衛艦的名字,通篇沒有提到4,“天馬”還是正確提取出了護衛艦數量資訊。
軍艦的數量從2~5的時候都沒有問題,當數量增加到6時,“天馬”錯誤地認為有7艘。這說明模型“符號推理”的數量有限。
最後,為了支援該持續研究並確保可重複性,谷歌在GitHub上釋出了“天馬”的程式碼、模型checkpoint以及其他彙總資料集。
傳送門
部落格地址:
https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html
論文地址:
程式碼地址:
— 完 —