模型越大，表現越差？谷歌收集了讓大模型折戟的任務，還打造了一個新基準

機器之心發表於2022-12-10

原文網址 : https://www.jiqizhixin.com/articles/2022-12-12-3

語言模型越大，效能越好，這一點已經在很多工中被證明是正確的。那是否存在一種情況：某些任務的結果會因模型規模的增加反而變得糟糕？谷歌最近發表的一篇論文或許能為我們提供答案。

隨著語言模型變得越來越大（引數數量、使用的計算量和資料集大小都變大），它們的表現似乎也原來越好，這被稱為自然語言的 Scaling Law。這一點已經在很多工中被證明是正確的。

或許，也存在某些任務的結果會因模型規模的增加反而變得糟糕。這類任務被稱為 Inverse Scaling，它們可以指示出訓練資料或最佳化目標是否存在某種缺陷。

今年，紐約大學的幾位研究者組織了一項較為另類的競賽：尋找一些大模型不擅長的任務。在這些任務上，語言模型越大，效能反而越差。

為了鼓勵大家參與識別 Inverse Scaling 任務，他們創立了 Inverse Scaling 獎，獲獎的投稿任務將從 25 萬美元的獎金池中獲得獎勵。釋出該獎的專家會根據一系列標準對提交的內容進行評價：標準包括 Inverse Scaling 的強度、任務重要性、新穎性、任務覆蓋率、可再現性和 Inverse Scaling 的通用性。

比賽共有兩輪，第一輪截止時間是 2022 年 8 月 27 日，第二輪截止時間是 2022 年 10 月 27 日。兩輪中的第一輪收到了 43 份提交，其中四項任務被授予三等獎，它們將被納入最終的 Inverse Scaling 基準。

相關的研究成果，被谷歌的幾位研究者總結在了一篇論文裡：

論文連結：https://arxiv.org/pdf/2211.02011.pdf

這四項任務的 Inverse Scaling 應用在了三個語言模型，模型的引數跨越三個量級：Gopher（42M–280B）、Chinchilla（400M–70B）和 Anthropic internal model（13M–52B）。獲得 Inverse Scaling 獎勵的任務是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相關任務示例如圖 1 所示。

在論文中，作者對這四個任務的縮放表現進行了詳細研究。

作者首先在 PaLM-540B 模型上進行評估，該模型的計算量是 Inverse Scaling 獎提交檔案中的評估模型的 5 倍。有了 PaLM-540B 的對比，作者發現，四個任務中有三個表現出稱之為 U 型縮放的特性：效能先是隨著模型規模增大降到一定程度，然後隨著模型的增大效能再次上升。

作者認為，當一項任務同時包含「true task」和「distractor task」時，會出現 U 型縮放。中等模型可能會執行「distractor task」，從而影響效能，而更大的模型可能會忽略「distractor task」並且能執行「true task」。作者對 U 型縮放的發現與 BIG-Bench 任務（如 TruthfulQA、識別數學定理）的結果一致。U 型縮放的含義是，Inverse Scaling 曲線可能不適用於更大的模型，因為效能可能會繼續下降，也可能會開始上升。

接著，作者探索了 chain-of-thought（CoT）的 prompt 是否改變了這些任務的縮放。與不使用 CoT 的 prompt 相比，使用 CoT 的 prompt 會激勵模型將任務分解為多箇中間步驟。作者的實驗表明，使用 CoT 讓三個 U 型縮放任務中的兩個變為了 Positive Scaling 曲線，其餘任務從 Inverse Scaling 變成 Positive Scaling。使用 CoT 的 prompt 時，大型模型甚至在 Redefine Math. 中的兩個任務和八個子任務中的七個任務上實現了 100% 的準確率。

結果表明，「Inverse Scaling」這一術語其實並不明確，因為對於一個 prompt，給定的任務可能是 Inverse Scaling，但對於不同的 prompt ，則可能是 Positive Scaling 也可能是 U 型縮放。

U-shaped scaling

在這一部分，作者分別使用原始論文中提出的 8B、62B 和 540B 的 Palm 模型，評估了 Palm 模型在四個 Inverse Scaling 獎的任務上的表現，還包括 40B tokens 訓練得到的 1B 模型（其計算量約為 0.2 zettaFLOP）。單個 Palm-540B 的引數大約是 Inverse Scaling 獎中評估的最大模型 (Gopher-280B) 的兩倍，計算量約為 2.5K zettaFLOP，而 Chinchilla-70B 的計算量僅有 560 zettaFLOP。

作者在遵循 Inverse Scaling 獎的預設設定之外，也做了小的修改，比如使用 free-form generation（其後緊接著是精確的字串匹配，而非排名分類），後者比較了 Prompt 的兩個可能延續的機率。作者同時對 Prompt 進行了小的修改以適應 free-form generation，即所有 Prompt 都至少是單次的，輸入 prompt 中提供了答案選項，prompt 讓模型輸出「the answer is」。

具體形式如圖 1 所示。作者認為這是合理的，因為這種形式與最近研究 prompt 的工作是一致的，之前評估的模型和 PaLM 8B/62B 之間的經驗表現相似(作者在本文中使用的所有 prompt 都是可用的。)

圖 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四個任務上的結果：

在 Negation QA 任務上，Palm-62B 的準確率同 Palm-8B 模型相比大幅下降，而 Palm-540B 模型的準確率又有所提高；
在 Hindsight Neglect 任務上，Palm-8B 和 Palm-62B 的準確率下降到遠低於隨機數的水平，但 Palm-540B 的準確率卻達到了 100%；
在 Quote Repetition 任務上，準確率從 Palm-8B 的 86% 下降到 Palm-62B 的 81%，但 Palm-540B 的準確率卻達到了 100%。事實上，在 Quote Repetition 任務中，Gopher 和 Chinchilla 模型已經顯示出 U 型縮放的跡象。

這四項任務中的例外是 Redefine Math，因為即使是 Palm-540B，它也沒有顯示任何 U 型縮放的跡象。因此，對於目前存在的大模型，還不清楚這項任務是否會變成 U 型縮放。或者它是否真的會是 Inverse Scaling 呢？

對於 U 型縮放的一個問題是：為什麼效能會先下降後又上升？

作者給出一個推測假設：即每個 Inverse Scaling 獎中的任務可以分解為兩個任務 (1)「true task」和(2)影響效能的「distractor task」。由於小模型不能完成這兩個任務，只能達到隨機準確度附近的效能。中等模型可能會執行「distractor task」，這會導致效能下降。大型模型能夠忽略分「distractor task」，執行「true task」讓效能的提高，並有可能解決任務。

圖 5 展示了潛在的「distractor task」。雖然可以僅在「distractor task」上測試模型的效能，但這是一個不完美的消融實驗，因為「distractor task」和「true task」不僅可能相互競爭，而且可能對效能產生聯合影響。接下來作者進一步解釋為什麼會出現 U 型縮放以及未來需做的工作。

CoT prompt 對 Inverse Scaling 的影響

接下來，作者探索了使用不同型別 prompt 時，Inverse Scaling 獎的 4 個任務的縮放是如何變化的。雖然 Inverse Scaling 獎的發起者使用了基本的 prompt 策略，即在指令中包括少樣本， chain-of-thought(CoT)激勵模型在給出最終答案之前輸出中間步驟，這可以在多步驟推理任務中大幅提高效能。即沒有 CoT 的 prompt 是模型能力的下限。對於某些任務，CoT 的 prompt 能更好代表模型的最佳效能。

圖 3 的上半部分是 CoT 的 prompt 示例，下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情況下的表現。

對於 Negation QA 和 Hindsight Neglect，CoT 的 prompt 使縮放曲線從 U 型變為正向的。對於 Quote Repetition，CoT 的 prompt 仍呈顯 U 型曲線，儘管 Palm-8B 和 Palm-62B 的效能明顯更好，並且 Palm-540B 準確率達到 100%。

圖 4 展示了 Redefine Math 在有 CoT 的 prompt 情況下的結果。該任務實際上由 8 個子任務組成，每個子任務都有不同的指令，因此作者還按子任務對效能進行了劃分，以探索子任務是否具有相同的縮放行為。總之，CoT 的 prompt 對所有子任務都顯示出 Positive Scaling，8 個子任務中有 7 個在 Palm-62B 和 Palm-540B 模型上實現了 100% 的準確率。但是對於「+ as digit」和「+ as random number」子任務，就算使用 Palm-540B，也顯示出明顯的 Inverse Scaling 曲線。

綜上所述，所有被研究的任務和子任務，在使用 CoT 的 prompt 時都呈現出 U 型縮放或 Positive Scaling。這並不意味著 no-CoT 的 prompt 結果是無效的，相反它透過強調任務的縮放曲線如何根據使用的 prompt 型別而不同，提供了額外的細微差別。即同一任務對於一種型別的 prompt 可以具有 Inverse Scaling 曲線，而對於另一種型別的 prompt 就可能具有 U 型縮放或 Positive Scaling。因此「inverse scaling task」這一術語沒有明確的定義。

模型越大，表現越差？谷歌收集了讓大模型折戟的任務，還打造了一個新基準

相關文章