前一章我們介紹了基於模型自我合成資料迭代,來提升LLM生成更合理的自我推理思考鏈路。但在模型持續提升的道路上,只提升Generator能力是不夠的,需要同步提升Supervisor、Verifier的能力,才能提供有效的監督最佳化訊號。
人類提供的監督訊號有幾類,包括人工直接生成最優回答(Demonstration), 人工提供偏好對比(Preference),人工給出最佳化建議(Critique)等幾種,論文中曾提及以上幾類訊號的難易程度
The Evaluation of AI output is typically faster and easier for humans than the demonstration of ideal output
所以RLHF階段的引入,除了降低模型模仿,提升泛化,增加更高水平的對齊,其實也有一部分原因是人類生成golden answer的上限是比較低的,畢竟不能僱傭一堆各領域專家來給你生成最優回答,所以訓練也就從人類標註轉移到了人類評估。
而現在當大模型能力提升到一定水平後,不僅是Demonstration,連Prefernce和Critique也會遇到瓶頸。當前阻礙模型智慧進一步提升的一個核心問題就是評估水平的上限,而這時就需要模型評估的輔助,尤其是生成式評估能力的加持,下面我們看兩篇OpenAI在生成式評估上的論文。
22年:Self-critiquing models for assisting human evaluators
比較早的這篇論文我們主要看下結論,畢竟模型更大更強了,訓練正規化也在這兩年發生了轉變。論文的核心就是機器輔助人類進行標註。可能早在22年之前,OpenAI就已經到了大模型在複雜問題上輸出結果接近人類標註員的水平,所以才早早開始研究這個方向。
這裡標註的任務已經脫離了早期descriminative的NLP任務,例如多項選擇,分類等判斷模型,而是已經聚焦在了對生成式模型的輸出進行廣泛評估。並且機器輔助也並非簡單的對/錯的分類判別,而是分類判別(critiqueable)、生成式評估(critique)、基於評估的條件最佳化(refinement)的結合體,如下
論文評估用模型輔助人類標註,得到了以下結論
- 生成式評估可以幫助標註員發現更多模型回答問題(人機協同,相比各自單打獨鬥能發現更多模型回答的問題)
- 隨著模型規模提升,模型的回答會更難被發現問題(critiqueability),但同時模型自我評估的能力也會隨之提升(fraction helpful)
- 足夠大的模型可以透過自己評估自己的回答,來最佳化答案生成,透過拒絕取樣得到更準確的critique,可以進一步提升效果
24年: LLM Critics Help Catch LLM Bugs
如果說22年初的論文還只是針對在部分人類難以評估的領域,例如生成式摘要上,使用人機協同評估帶來的增益。24年的這篇論文就更廣泛地討論Scalable Oversight問題。這是Anthropic也在22年提出的概念,就是當模型能力在多數任務上超越人類時,人類該如何繼續為模型提供有效的對齊訊號,如下圖
論文給出方案就是訓練CriticGPT,使用模型生成式評估來輔助人類標註員。並同時給出了在推理時可以平衡問題發現的準召比例的推理方案Force Sampling Beam Search。論文評估在CriticGPT模型的幫助下,人工標註的效果會有顯著的提升。下面我們分別講下訓練和推理部分。
資料和訓練
論文選擇了Coding,這個任務複雜度上限很高,相對容易驗證且客觀的任務場景。訓練的核心在於程式碼標註RLHF資料集的構建,包括偏好標註標準和資料集組成。什麼樣的模型標註是好標註?什麼樣的模型程式碼樣本能讓偏好標註的一致性更高,同時資料集足夠全面?
先說資料標註標準,論文綜合召回和準確給出了4條衡量模型標註優劣的標準
- 召回率:模型的標註評論是否發現了回答中的所有Bug
- 核心召回率(CBI):模型的標註評論是否發現了回答中的核心Bug
- 準確率:模型的標註評論是無中生有,或者雞蛋裡挑骨頭
- 綜合召回+準確:模型標註評論整體的有用性
人工標註員除了需要對每條模型評論針對以上標準進行打分外,還需要對4條模型標註的整體效果進行對比,最終是使用對比結果來作為RLHF的訓練標籤,考慮在標註時絕對打分的一致性要遠遠低於相對打分的一致性。
再說資料構成,整個RLHF的資料集包含兩個部分
- 人工在模型回答中注入Bug,再讓模型進行評論
- 模型回答自帶Bug
人工資料部分就是論文的一個亮點,上圖就是人工資料構建的過程,既人工在模型回答中加入Bug(Tampering),給出注入Bug的相關解釋。之後模型需要在人工修改過的答案上進行標註評論,同時標註員也會依賴Bug說明,來衡量模型生成的多條標註的效果。
這類構造資料在RLHF資料集中佔比更高,原因在於相比自帶Bug的天然資料,這類加工資料,不僅Bug更加複雜,同時因為自帶golden answer,所以在人工標註階段能得到更一致,準確率更高的標註結果,在偏好資料的標註過程中,稽核一致性是非常重要的。同時在收集資料過程中,論文還使用了多個版本,多個大小的模型,來豐富整個RLHF資料集的分佈覆蓋度。兩類資料的佔比分佈如下
偏好資料收集完,後面就是比較常規的訓練Reward模型,再基於reward模型,使用PPO訓練CriticGPT。
推理和效果
推理時,論文采用了Reward模型和推理搜尋結合的方式,目標是提高模型標註的長度,並降低迴答幻覺。其實也很簡單就是在單純reward 打分的基礎上,加了一個模型引用原始碼段落數的得分。
模型標註的推理格式是引用一段原始碼,再分析一下這段程式碼的問題,所以在打分中加入程式碼數可以鼓勵模型推理對更多的原始碼片段進行分析,從而發現更多的Bug,而reward打分則用於控制幻覺,這樣既保質也保量。
效果上,有模型標註協同,人工標註可以顯著發現更多的bug,並且相比單純使用criticGPT進行機器標註,會有顯著更低的幻覺比例。整體上criticGPT配合人工標註是更加balance的模型標註方案。
想看更全的大模型論文·微調預訓練資料·開源框架·AIGC應用 >> DecryPrompt