全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

機器之心發表於2021-09-08

大規模語言模型(LM)已經被證明可以很好的應用到小樣本學習任務。例如 OpenAI 提出的 GPT-3 ,引數量達 1,750 億,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力等。在不進行微調的情況下,可以在多個 NLP 基準上達到最先進的效能。


然而,像 GPT-3 這樣的大規模語言模型在零樣本(zero-shot)學習任務中表現不是很突出。例如,GPT-3 在執行閱讀理解、問答和自然語言推理等任務時,零樣本的效能要比小樣本(few-shot)效能差很多。

本文中,Quoc Le 等來自谷歌的研究者探索了一種簡單的方法來提高大型語言模型在零樣本情況下的效能,從而擴大受眾範圍。他們認為 NLP 任務可以透過自然語言指令來描述,例如「這部影評的情緒是正面的還是負面的?」或者「把『how are you』譯成漢語」。

該研究採用具有 137B 引數的預訓練模型並執行指令調整任務,對 60 多個透過自然語言指令表達的 NLP 任務進行調整。他們將這個結果模型稱為 Finetuned LANguage Net,或 FLAN。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

  • 論文地址:https://arxiv.org/pdf/2109.01652.pdf

  • GitHub 地址:https://github.com/google-research/flan.


為了評估 FLAN 在未知任務上的零樣本效能,該研究根據 NLP 任務的任務型別將其分為多個叢集,並對每個叢集進行評估,同時在其他叢集上對 FLAN 進行指令調整。如下圖 1 所示,為了評估 FLAN 執行自然語言推理的能力,該研究在一系列其他 NLP 任務(如常識推理、翻譯和情感分析)上對模型進行指令調整。由於此設定確保 FLAN 在指令調整中未見自然語言推理任務,因此可以評估其執行零樣本自然語言推理的能力。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

評估表明,FLAN 顯著提高了模型(base 137B 引數)的零樣本效能。在 25 個評估任務中,FLAN 零樣本在 19 項任務上優於具有 175B 引數 GPT-3 零樣本,甚至在許多工(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也顯著優於 GPT-3 小樣本。在消融研究中,研究發現在指令調整中增加任務叢集的數量,可以提高模型在未見過的任務的效能,並且指令調整的好處只有在模型規模足夠大的情況下才會出現。

該研究實證結果強調了語言模型使用自然語言指令描述任務的能力。更廣泛地說,如圖 2 所示,指令調整結合了預訓練微調(pretrain–finetune)特點,並透過使用 finetune 監督來提高語言模型響應推理時文字互動的能力。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強


FLAN:用指令調整改進零樣本學習

 指令調整的動機是提高語言模型響應 NLP 指令的能力,旨在透過使用監督來教 LM 執行以指令描述的任務。語言模型將學會遵循指令,即使對於未見過的任務也能執行。為了評估模型在未見過的任務上的效能,該研究按照任務型別將任務分成多個叢集,當其他叢集進行指令調整時,留出一個任務叢集進行評估。

任務和模板

該研究將 62 個在 Tensorflow 資料集上公開可用的文字資料集(包括語言理解和語言生成任務)聚合到一起。下圖 3 顯示了該研究使用的所有資料集;每個資料集被歸類為十二個任務叢集之一,每個叢集中的資料集有著相同的任務型別。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

該研究將任務定義為由資料集給出的一組特定的輸入 - 輸出對。對於每個任務,研究者手動編寫十個獨特的模板,使用自然語言指令描述任務。十個模板大多描述的是原始任務,但為了增加多樣性,研究者為每個任務,提供了最多三個「變更任務(turned the task around)」的模板,下圖 4 給出了自然語言推理任務的多個指令模板。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強


訓練細節

模型架構和預訓練。在實驗中,該研究使用密集的從左到右、僅解碼器、137B 引數的 transformer 語言模型。該模型在一組網路文件(包括含計算機程式碼的文件)、對話資料和 Wikipedia 上進行預訓練,這些文件使用 SentencePiece 庫 (Kudo & Richardson, 2018),被 tokenize 為 2.81T BPE token 和 32K token 的詞表。大約 10% 的預訓練資料是非英語的。這個資料集不像 GPT-3 訓練集那麼幹淨,而且還混合了對話和程式碼。

實驗結果


研究者分別在自然語言推理、閱讀理解、開放域問答、常識推理、共指消解和翻譯等多項任務上對 FLAN 的效能進行了評估。對於每一項任務,他們報告了在所有模板上效能的平均和標準誤差,這代表了給定典型自然語言指令時 FLAN 的預期效能。

自然語言推理任務


下表 1 展示了不同模型自然語言推理測試的結果,其中給定一個前提與假設——模型必須確認在給定前提為真的情況下假設也為真。可以看到,FLAN 在所有情況下均表現出強大的效能。

儘管在 CB 和 RTE 的不同模板的結果中存在高方差,但 FLAN 在沒有任何 prompt 工程時依然在四個資料集上顯著優於零樣本和小樣本 GPT-3。在具有最佳 dev 模板時,FLAN 在五個資料集上優於小樣本 GPT-3。FLAN 甚至在 ANLI-R3 資料集上超越了監督式 BERT。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

閱讀理解和開放域問答任務


在閱讀理解任務上,模型被要求回答關於給定文章段落的問題,結果如下表 2 所示。FLAN 在 BoolQ 和 OBQA 資料集上顯著優於 GPT-3。在使用最佳 dev 模板時,FLAN 在 MultiRC 資料集上略優於小樣本 GPT-3。

對於開放域問答任務,FLAN 在 ARC-easy 和 ARC-challenge 資料集上顯著優於零樣本和小樣本 GPT-3。在 Natural Questions 資料集上,FLAN 優於零樣本 GPT-3,弱於小樣本 GPT-3。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

常識推理和共指消解任務


不同模型在五個常識推理資料集上的結果如下表 3 所示,FLAN 在 StoryCloze 資料集上優於 GPT-3,在 CoPA 和 PiQA 資料集上媲美 GPT-3。但在 HellaSwag 和 ReCoRD 資料集上,Base LM 和 FLAN 均弱於 GPT-3。

在兩個共指消解任務上,具有最佳 dev 模板的 FLAN 在 Winogrande 資料集上優於零樣本 GPT-3,但在 WSC273 資料集上,Base LM 和 FLAN 均弱於 GPT-3。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

翻譯


研究者還在 GPT-3 論文中評估的三個資料集上測試了 FLAN 的機器翻譯效能,這三個資料集分別是 WMT’14 法語 - 英語以及 WMT’16 的德語 - 英語和羅馬尼亞語 - 英語。

測試結果如下表 4 所示,Base LM 的零樣本翻譯效能弱,但小樣本翻譯結果媲美 GPT-3。FLAN 在六個評估指標中的五個上優於小樣本 Base LM。與 GPT-3 類似,FLAN 在翻譯成英語任務上展示出了強大的效能,並且與監督式翻譯基線相比具有優勢。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

其他實驗


由於該論文的核心問題是指令調整如何提高模型在未見過任務上的零樣本效能,因此該研究的第一個消融實驗研究了指令調整中使用的叢集和任務數量對效能的影響。

圖 5 顯示了實驗結果。與預期一致,研究者觀察到 3 個 held-out 叢集的平均效能隨著向指令調整新增額外的叢集和任務而提高(情感分析叢集除外),證實了所提指令調整方法有助於在新任務上提升零樣本效能。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

下圖 6 結果表明,對於較大規模的模型,指令調整填充了一些模型容量,但也教會了這些模型遵循指令的能力,允許模型將剩餘的容量泛化到新任務。

全新instruction調優,零樣本效能超越小樣本,谷歌1370億引數新模型比GPT-3更強

相關文章