OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了

机器之心發表於2024-07-18

如果 AI 模型給的答案一點也看不懂,你敢用嗎?


隨著機器學習系統在更重要的領域得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。

獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支援其決策。

對於大型語言模型來說,我們也可以採用類似的方法。
不過,在採用這種方法時,確保語言模型生成的是易於理解的文字,這件事非常重要,尤其是在處理數學、編碼這樣的複雜任務時。

如下圖所示,你讓 AI 寫一個快速排序演算法,AI 很快就寫出來了,而且答案很簡潔。但不會寫程式碼的你要怎麼判斷 AI 寫得對不對呢?圖片
OpenAI 在一篇最新的論文中研究了這個問題。
圖片
  • 論文標題:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
  • 論文連結:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

他們發現,如果以「得到正確答案」為目標,要求大語言模型生成答案,它們給出的答案可能會很難懂。人類評估員在判斷這些答案時,犯錯的可能性會加倍。

所以他們的目標是在訓練高階語言模型的過程中,讓它們生成那些較簡單的模型也能夠輕鬆驗證的文字。他們發現,這樣的文字不僅對簡單模型友好,對於人類來說也更可讀。

那麼,具體是怎麼實現的呢?這還要提到 2021 年的一篇論文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在這篇論文中,Cem Anil 等人提出了一個名為「Prover-Verifier Games(證明者 - 驗證者博弈)」的博弈論框架。該框架由兩個相互競爭的學習者組成:一個可信的驗證者(Verifier)網路試圖選擇正確的答案,另一個更強大但不可信的證明者(Prover)網路試圖說服驗證者接受特定的答案,而不管其正確性如何。該框架的目標是從博弈中產生一個可靠的證明協議。

OpenAI 在這項新研究中借鑑了這個框架,讓兩個大模型(較強的為證明者,較弱的為驗證者)互相博弈,直到二者達到一種平衡。此時,證明者給出的答案既有一定的可讀性,又保持了合理的正確性。

OpenAI 表示,透過提高模型輸出的可讀性,可以使人工智慧的應用更加有效和可信,這對於需要精確溝通的各個領域都是有益的。

值得一提的是,這篇論文來自 OpenAI 的超級對齊團隊,其中幾位作者在今年早些時候已經離開 OpenAI,團隊也已經分崩離析。其中一位作者透露,這是該團隊的最後一篇論文。

圖片

一個直觀的例子

為了提高模型輸出的可讀性,OpenAI 最佳化了一些小學數學問題的思維鏈(CoT),讓它能夠被較弱的模型理解。舉例如下:

問題:肖娜(Shawna)的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親多少歲?

圖片
圖片
這麼做的目的是為了驗證經過這種訓練的模型,它的輸出是否更加直接易懂。

這種方法在只對訓練集做了一些最佳化的情況下,讓模型的效能提升了 50%。同時,模型輸出的答案也更好懂了,這也幫助需要評估這些答案正確性的人類使用者更準確地做出判斷。OpenAI 認為,進一步縮小可讀性強的模型和能力強的模型之間的效能差距,是未來對齊研究中一個關鍵的目標。

「證明者」和「驗證者」是怎麼在訓練中博弈的?

為了激勵強力模型(證明者)生成可讀性更強的文字,研究者採用了一種訓練方案,要求強力模型生成的答案能夠被較弱的模型(驗證者)輕鬆驗證。具體來說,他們使用了 GPT-4 系列中的大模型和小模型。它們在預訓練資料量上相差約三個數量級。它們都接受了一些基於人工標註的數學推導訓練,但未經過廣泛的後訓練。

首先,研究團隊讓證明者模型嘗試解決一系列數學問題。由於證明者模型自身可能出錯,它生成的一些答案可能不正確。接下來,他們將這些答案交由驗證者模型進行檢驗,並在以下兩個階段之間進行多輪的交替驗證:

  • 「驗證者」訓練:研究團隊訓練較弱的「驗證者」模型,驗證「證明者」給出的答案是否正確。
  • 「證明者」訓練:研究團隊指示效能較強的「證明者」模型扮演「有用」或「狡猾」的戲份。
  • 當「證明者」被設定為「有用」時,研究團隊將獎勵「驗證者」打分高的正確答案。
  • 當「證明者」被設定為「狡猾」時,研究團隊反而獎勵「驗證者」打分高的錯誤答案。

研究團隊發現,最初,狡猾的「證明者」能夠輕鬆生成讓「驗證者」信服的錯誤答案。然而,這些錯誤答案將會進入下一輪的「驗證者」訓練中,相同的漏洞在下一輪中,將不再具有說服力。因此,「證明者」將被迫在每一輪中探索不同的策略。

當狡猾的「證明者」再也無法生成讓「驗證者」信服的錯誤解決方案時,訓練宣告結束。

研究者都發現了什麼?
圖片
效能與可讀性權衡:

  • 一個僅在人類編寫的推導上進行監督式微調的模型,雖然具有較高的可讀性,但準確性較差。
  • 當模型的最佳化目標僅為正確性,即只關注生成正確答案時,雖然能夠達到高準確性,但生成的解決方案的可讀性卻較差。
  • OpenAI 提出的可檢查博弈方法平衡了這兩者,在保持高可讀性的同時保持適度的準確性。

三種有用的模型:

  • 魯棒驗證者:即使解決方案具有誤導性,仍能夠有效區分正確和錯誤的解決方案。
  • 有用的證明者:生成對人類來說易於理解的解決方案,從而減少人類評估者的錯誤。
  • 狡猾證明者:產生微妙的、錯誤的解決方案,這些解決方案最初會混淆人類評估者,從而突出需要進一步改進的領域。

研究團隊使用了同樣的測試問題,來展示狡猾證明者(Sneaky Prover)的生成內容和訓練過程。

問題:肖娜(Shawna)的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親多少歲?

圖片

圖片

結論

隨著大語言模型(LLMs)在關鍵領域和複雜應用中的使用日益增加,瞭解其所生成的內容是否值得信賴變得至關重要。透過要求模型生成清晰且可驗證的理由,可以增強對其生成內容的信任。

此方法的一個顯著優勢是它減少了對人類示範或可讀性判斷的依賴。這種自主性對於未來超智慧 AI 系統的對齊尤為重要,其最終目標是在沒有人類進行直接監督的情況下,可靠地將 AI 系統與人類的價值觀和期望對齊。

儘管這項工作僅在一個資料集上進行了實驗,並且仍然需要真值標籤(ground truth labels),但研究團隊仍預計在開發正確、透明及可驗證的 AI 系統中,此類方法會起到關鍵作用,並增強其在現實應用中的可信任性和安全性。

更多詳情,請參考原論文。

參考連結:
https://openai.com/index/prover-verifier-games-improve-legibility/

相關文章