賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”

新闻助手發表於2024-07-18

賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”

顛覆過往大模型評測標準,最新、最全、最權威的測評資料集MR-Ben來了!

這是繼今年4月釋出堪稱GPT-4 + DALL- E-3的王炸產品超強視覺語言模型Mini-Gemini後,港中文賈佳亞團隊再次提出的極具代表性的作品。在MR-Ben的“監督”下,大模型不僅要像學生那樣會答題,還要像老師那樣會閱卷,真實的推理能力無所遁形。

MR-Ben細緻地評測了不少國內外一線的開源和閉源模型,如GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2等,並進行了詳盡的分析。

哪些看似美麗的大模型會被“卸妝”,哪個模型地表最強?目前該工作所有程式碼和資料均已開源,一起來看看!

Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

Arxiv Page: https://arxiv.org/abs/2406.13975

Github Repo: https://github.com/dvlab-research/Mr-Ben

MR-Ben秒破大模型“高分低能”

人工智慧領域進入GPT時刻後,學術界和產業界共同發力,每月甚至每週都有新的模型問世。

大模型層出不窮,用什麼標準來衡量大模型的具體能力?目前的主流方向是使用人類的標準化考試——選擇題和填空題的方式去進行大模型評測。使用這套測試方式的好處有很多, 簡單來說可以分為以下幾點:

• 標準化考試易於量化和評測,標準明確,對就是對錯就是錯。

• 指標直觀,在國內高考或者美國高考SAT裡取得怎麼樣的分數易於比較和理解。

• 量化結果天然具有話題性(如GPT4輕鬆透過美國律師認證資格考試極為吸引眼球)。

但如果深究大模型的訓練方式,就會發現這種逐步作答的思維鏈方式生成最終答案,並不“靠譜”。

問題正是出現在分步作答的流程上!

預訓練模型在預訓練時早已見過數以萬億級別的詞元,很難說被評測的模型是否早已見過相應的資料,從而透過“背題”的方式回答正確。而在分步作答的時候,模型是否是基於正確的理解推理選出正確的選項,我們不得而知,因為評測的方式主要靠檢查最終的答案。

儘管學術界不斷地對諸如GSM8K、MMLU等資料集進行升級改造,如在GSM8K上引入多語言版本的MGSM資料集,在MMLU的基礎上引入更難的題目等,依然無法擺脫選擇或填空的窠臼。

並且,這些資料集都已面臨著嚴重的飽和問題,大語言模型在這些指標上的數值已經見頂,並逐漸喪失了區分度。

為此,賈佳亞團隊聯合MIT、清華、劍橋等多家知名高校,與國內頭部標註公司合作,標註了一個針對複雜問題推理過程的評測資料集MR-Ben。

MR-Ben基於GSM8K、MMLU、LogiQA、MHPP等大模型預訓練必測資料集的題目,進行了“閱卷式”的正規化改造,生成的新資料集更難、更有區分度,更能真實地反映模型推理能力!

而賈佳亞團隊這次的工作還針對現存評測痛點進行了針對性的改進:

不是害怕資料洩露導致的大模型背題導致分數虛高嗎?不用重新找題出卷,也不用把題目變形來測試模型的穩健性,MR-Ben直接讓模型從答題者的學生身份,轉變為對答題過程的“閱卷”模式,讓大模型當老師來測試它對知識點的掌握情況!

不是擔心模型對解題過程毫無知覺,有可能出現“幻覺”或錯誤的理解,蒙對答案嗎?MR-Ben直接招聘一批高水平的碩博標註者,對大量題目的解題過程進行精心標註。把解題過程是否正確,出錯的位置,出錯的原因都細緻指出,比對大模型的閱卷結果和人類專家的閱卷結果來測試模型的知識點掌握情況。

具體來說,賈佳亞團隊針對市面上主流的評測資料集GSM8K、MMLU、LogiQA、MHPP等資料集進行整理,並分成了數理化生、程式碼、邏輯、醫藥等多個類別,同時區分了不同的難度等級。針對每個類別、收集到的每個問題,團隊精心收集了對應的分步解題過程,並經由專業的碩博標註者進行培訓和標註。

賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”MR-Ben資料集的構建流程

表現最佳大模型是它?

接下來,讓我們結合MR-Ben工作中給出的具體例子,看看為什麼說逐步作答生成最終答案的方式和相關評測不靠譜。

作為被評測的“閱卷”模型,GPT4-Turbo並未發現第二步所隱藏的計算錯誤:

# E.1 數學

## 科目:高中數學

## 問題:哪個最小的整數被4除餘1,被3除餘2,被5除餘2?

## 選項:[A] 67 [B] 43 [C] 57 [D] 37

## 答案:D


###取樣模型:Claude2

模型解答步驟:

- 步驟1:檢查選項A(67)當67除以4,餘數是3,不是1。所以67不是正確答案。

- 步驟2:檢查選項B(43)當43除以4,餘數是1。當43除以3,餘數是3,不是2。所以43不是正確答案。

- 步驟3:檢查選項C(57)當57除以4,餘數是1。當57除以3,餘數是0,不是2。所以57不是正確答案。

- 步驟4:檢查選項D(37)當37除以4,餘數是1。當37除以3,餘數是1。當37除以5,餘數是2。

- 步驟5:選項D(37)滿足所有條件,是正確答案。

###解答:選項D


###人工註解

模型解答正確性:不正確

首次錯誤步驟:步驟2

模型解答錯誤原因:

在步驟2中,模型錯誤計算了43除以4的餘數為1而不是3。模型假設當43除以4時餘數是1,但餘數應該是3。這裡有一個計算錯誤。

###修正後的首個正確步驟:步驟2

當43除以4,餘數是1。當43除以3,餘數是1。當43除以5,餘數是3,不是2。因此,43不是正確答案。



###評測模型:gpt-4-turbo

模型回覆:

-步驟1:步驟檢查67除以4和3的餘數,發現它符合被4除餘3的條件,這是一個正確的驗證。

-步驟2:檢查43除以4、3、5的餘數,發現1、3、5的餘數正確匹配預期,除了5的餘數不符合條件。

-步驟3:步驟計算57除以4和3的餘數,餘數分別是1和0。當57除以3時餘數不符合條件。

-步驟4:步驟檢查並驗證37除以4、3、5的餘數,發現所有預期的餘數都準確,得出37滿足題目中的所有條件。

###解答過程是否正確:正確

###第一個出錯的步驟:不適用

###第一個出錯步驟的原因:不適用


可以看到,當給定問題、確定的解答過程,評測語言模型的方式就轉換成了讓模型對解答過程進行“閱卷”並評判正誤、指出錯誤位置及原因。其中解答過程的正誤,潛在的出錯位置可以透過與標註結果進行比對來計算。而模型出錯步驟和原因的評測,則可以交由GPT4,透過比較標註人員給出的錯誤原因解釋和模型的錯誤原因解釋,來判斷模型是否正確。

從評測方式來看,MR-Ben所提出的方法需要模型對於解題過程的每一個步驟的前提、假設、邏輯都進行細緻分析,並對推理過程進行預演來判斷當前步驟是否能導向正確答案。

賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”

賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”

這種“閱卷”式的評測方式從難度上遠超於僅答題的評測方式,但可有效避免模型背題所導致的分數虛高問題。而只會背題的學生很難成為一名合格的閱卷老師。

其次,MR-Ben透過使用了人力精細的標註流程控制,取得了大量的高質量標註,而巧妙的流程設計又使得評測方式能夠直觀地量化。

賈佳亞團隊還針對性測試了時下最具代表性的十大大語言模型和不同版本。可以看到,閉源大語言模型裡,GPT4-Turbo的表現最佳(雖然在“閱卷”時未能發現計算錯誤),在絕大部分的科目裡,有demo(k=1)和無demo(k=0)的設定下都領先於其他模型。

賈佳亞團隊聯手劍橋清華等共推評測新正規化 一秒偵破大模型“高分低能”部分開源大語言模型在MR-Ben資料集上的測評結果

可以看到,最強的部分開源大語言模型效果已經趕上了部分商用模型,並且哪怕最強的閉源模型在MR-Ben資料集上表現也仍未飽和,不同模型間的區分度較大。

除此之外,MR-Ben的原論文裡還有更多有意思的解析和發現,例如:

• Qwen和Deepseek釋出的開源模型哪怕在全球梯隊裡,PK閉源模型效果也不遜色。

• 不同的閉源模型定價策略和實際表現耐人尋味。在使用場景裡關注推理能力的小夥伴,可以對照價格和能力找到自己心儀的模型去使用。

• 低資源場景下,小模型也有不少亮點,MR-Ben評測中Phi-3-mini在一眾小模型裡脫穎而出,甚至高於或持平幾百億引數的大模型,展現出了微調資料的重要性。

• MR-Ben場景包含複雜的邏輯解析和逐步推斷,Few-shot模式下過長的上下文反而會使得模型困惑,造成水平下降的後果。

• MR-Ben評測了不少生成-反思-重生成的消融實驗,檢視不同提示策略的差異,發現對低水平的模型沒有效果,對高水平的模型如GPT4-Turbo效果也不明顯。反而對中間水平的模型因為總把錯的改對,對的改錯,效果反而略有提升。

• 將MR-Ben評測的科目粗略劃分成知識型、邏輯型、計算型、演算法型後,不同的模型在不同的推理型別上各有優劣。

賈佳亞團隊已在github上傳一鍵評測的方式,歡迎所有關注複雜推理的小夥伴在自家的模型上評測並提交,團隊會及時更新相應的leaderboard。

對了,使用官方的指令碼一鍵評測,只需花費12M tokens左右,過程非常絲滑,不妨一試!

參考

1. Training Verifiers to Solve Math Word Problems (https://arxiv.org/abs/2110.14168)

2. Measuring Massive Multitask Language Understanding( https://arxiv.org/abs/2009.03300)

3. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning (https://arxiv.org/abs/2007.08124)

4. MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation( https://arxiv.org/abs/2405.11430)

5. Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

6. Qwen Technical Report (https://arxiv.org/abs/2309.16609)

7. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (https://arxiv.org/abs/2405.04434)

8. Textbooks Are All You Need (https://arxiv.org/abs/2306.11644)

9. Large Language Models Cannot Self-Correct Reasoning Yet (https://arxiv.org/abs/2310.01798)


相關文章