如果 AI 模型給的答案一點也看不懂,你敢用嗎?
論文標題:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS 論文連結:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
問題:肖娜(Shawna)的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親多少歲?
「驗證者」訓練:研究團隊訓練較弱的「驗證者」模型,驗證「證明者」給出的答案是否正確。 「證明者」訓練:研究團隊指示效能較強的「證明者」模型扮演「有用」或「狡猾」的戲份。 當「證明者」被設定為「有用」時,研究團隊將獎勵「驗證者」打分高的正確答案。 當「證明者」被設定為「狡猾」時,研究團隊反而獎勵「驗證者」打分高的錯誤答案。
一個僅在人類編寫的推導上進行監督式微調的模型,雖然具有較高的可讀性,但準確性較差。 當模型的最佳化目標僅為正確性,即只關注生成正確答案時,雖然能夠達到高準確性,但生成的解決方案的可讀性卻較差。 OpenAI 提出的可檢查博弈方法平衡了這兩者,在保持高可讀性的同時保持適度的準確性。
魯棒驗證者:即使解決方案具有誤導性,仍能夠有效區分正確和錯誤的解決方案。 有用的證明者:生成對人類來說易於理解的解決方案,從而減少人類評估者的錯誤。 狡猾證明者:產生微妙的、錯誤的解決方案,這些解決方案最初會混淆人類評估者,從而突出需要進一步改進的領域。
問題:肖娜(Shawna)的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親多少歲?