AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
上海交通大學生成式人工智慧實驗室 (GAIR Lab) 的研究團隊,主要研究方向是:大模型訓練、對齊與評估。團隊主頁:https://plms.ai/
圖靈獎得主Hinton在他的訪談中提及「在未來20年內,AI有50%的機率超越人類的智慧水平」,並建議各大科技公司早做準備,而評定大模型(包括多模態大模型)的「智力水平」則是這一準備的必要前提。
一個具有跨學科問題集、可以從多維度嚴謹評估AI的認知推理能力評估基準已經變得相當亟需。
1. 大模型不斷佔領人類智力高地:從小學試題到參加高考以大模型為核心的生成式人工智慧技術的興起,使得人類不僅有了可互動的文字、圖片、影片互動生成工具,還使得人類有機會訓練出一個”有智力“能力的模型,它可以看成是人類延申的大腦,獨立完成不同學科問題,成為未來10年可以給科學發現提供加速度的最有力的工具(即AI4Science)。過去兩年,我們看到這種以大模型為代表的矽基智慧的快速進化,從最初只能用來去解決小學題目, 到2022年,CMU等人[1]第一次把AI帶到了“高考”考場,並在全國卷II英語上取得了134分的成績,然而,那時候的AI還是個數理邏輯掌握不好的偏科生。直至今年,2024高考剛剛落下帷幕,在無數學子在這一年一度的大考中奮力拼搏,展現了他們多年來的學習成果的同時,大模型也是空前第一次被全學科的拉到考場,並且在數理學科中取得巨大進步。這裡我們不禁思考,AI智力進化的天花板在哪?人類還沒祭出最難的題目,那會是AI的天花板嗎?2. 智力較量最高殿堂:從 AI 高考到 AI 奧運會四年一度的奧運會也即將到來,這不僅是體育競技的巔峰盛會,更象徵著人類對極限的不斷追求和突破。學科奧林匹克競賽則是知識的深度與智力的極限的完美結合,它既是對學術成就的嚴格評估,也是對思維敏捷性和創新能力的極限挑戰。在這裡,科學的嚴謹與奧運會的激情相遇,共同塑造了一種追求卓越、勇於探索的精神。學科的奧林匹克競賽給將會給人機智力巔峰對決提供最好的賽場。不管未來AGI能否實現,AI參加奧林匹克競賽將會成為通向AGI的必經一站,因為這些考察了模型極具重要的 認知推理能力,而這些能力逐漸被體現於各種複雜的現實世界場景中,比如用作軟體開發的AI代理,合作處理複雜的決策過程,甚至推動科學研究領域(AI4Science)。在此背景下,上海交通大學生成式人工智慧實驗室 (GAIR Lab) 的研究團隊將大模型從高考考場搬到了更加具有挑戰性的“奧林匹克競技場”,推出了全新的大模型(包括多模態大模型)認知推理能力評估基準——OlympicArena。這一基準使用國際學科奧賽的高難度題目,全面測試了人工智慧在跨學科領域的認知推理能力。OlympicArena涵蓋了數學、物理、化學、生物、地理、天文、計算機七大核心學科,包括62個國際學科奧賽(如IMO, IPhO, IChO, IBO, ICPC等)的11,163道中英雙語題目,為研究者們提供了一個全面評估AI模型的理想平臺。同時,更長遠來看,OlympicArena為今後AI在科學領域(AI4Science),工程領域(AI4Engineering)發揮自身強大的能力,甚至促進AI激發出超越人類水平達到Superintelligence,起到了不可忽視的奠定作用。研究團隊發現,當下所有的大模型在學科奧賽上都不能交出較好的答卷,即使是GPT-4o,僅僅只有39%的正確率,GPT-4V僅有33%,離及格線(60%正確率)還有相當大的距離。而多數開源大模型表現的更加不盡人意,例如,LLaVa-NeXT-34B, InternVL-Chat-V1.5等當下較強的多模態大模型都未達到20%的正確率。此外,多數多模態大模型都不擅長充分利用視覺資訊解決複雜的推理任務,這也是大模型與人類最顯著的差異(人類往往會優先關注處理視覺資訊)。因此,OlympicArena上的測試結果表明模型在科學問題的求解上與人類依然有所差距,其內在的推理能力仍然需要不斷提高才能更好的輔助人類的科學研究。- 論文地址:https://arxiv.org/pdf/2406.12753
- 專案地址:https://gair-nlp.github.io/OlympicArena/
- 程式碼地址:https://github.com/GAIR-NLP/OlympicArena
OlympicArena的特點概述,以及一個可以反應benchmark對多模態支援、多種認知能力考察、以及細粒度評估(既考慮對答案對錯的評估,又考慮對每個推理步驟評估)的例題。
- 全面:OlympicArena包括來自62個不同奧林匹克競賽的共11,163道題目,跨越了七大核心學科:數學、物理、化學、生物、地理、天文和計算機,涉及34個專業分支。同時,不同於以往的benchmark大多數聚焦在選擇題等客觀題,OlympicArena支援豐富的題型,包含表示式、方程式、區間、化學方程式的書寫甚至是程式設計題等。此外,OlympicArena支援多模態(將近半數的題目含有圖片),並採用了與現實中最貼合的文字-影像環繞的輸入格式(interleaved text-image),充分測試了大模型利用視覺資訊協助進行推理的能力。
- 極具挑戰性:與以往的benchmark要麼聚焦於高中(高考)題,要麼聚焦於大學題不同,OlympicArena更加聚焦於更加純粹的複雜推理能力的考察,而不是考察大模型對海量知識點的記憶、召回能力或是簡單的應用能力。因此,OlympicArena中所有的題目均是奧賽難度。並且,為了細粒度的評估大模型在不同型別的推理能力上的表現,研究團隊還總結歸納了8種邏輯推理能力,5種視覺推理能力,後續特別分析了現有的大模型在不同型別的推理能力上表現的差異。
- 嚴謹:引導大模型的健康發展是學術界應該扮演的角色,目前在公開的benchmark中,許多流行大模型多多少少會存在資料洩露問題(即benchmark的測試資料洩露在大模型的訓練資料中)。因此研究團隊專門測試了OlympicArena在當下一些流行大模型上的資料洩露情況,以更加嚴謹的驗證該benchmark的有效性。
- 細粒度的評估:以往的benchmark往往僅評估大模型給出的最終答案是否與正確答案一致,這在非常複雜的推理問題的評估中是片面的,不能很好的反映出當下模型更加真實的推理能力。因此,研究團隊除了有對答案的評估,還加入了對題目過程(步驟)正確性的評估。同時,研究團隊也從多個不同的維度進行了不同結果的分析,例如,分析模型在不同學科、不同模態、不同推理能力上的表現差異。
從上表可以看出:OlympicArena無論是在學科、語言、模態的覆蓋,還是在題目型別的多樣性,對推理能力的考察深度,以及評估方式的全面性上,都與現存的其他一些聚焦於評測科學問題的benchmark有顯著的差異。研究團隊在OlympicArena上測試了多個多模態大模型(LMM)和純文字大模型(LLM)。對於多模態大模型,使用了文字-影像環繞(interleaved text-image)的輸入形式;而對於純文字大模型,在兩種設定下進行了測試,分別是不含任何圖片資訊的純文字輸入(text-only LLMs)和包含圖片描述資訊的純文字輸入(image caption + LLMs)。加入純文字大模型測試的目的不僅是為了擴大該benchmark的適用範圍(使所有的LLM都能參與排行榜),更是為了更好地瞭解和分析現有的多模態大模型在與其對應的純文字大模型相比時,是否能夠充分利用圖片資訊提升其解決問題的能力。所有實驗均使用zero-shot CoT prompts,研究團隊針對每種答案型別進行了定製,並指定了輸出格式以便於答案提取和基於規則的匹配。不同模型在OlympicArena不同學科上的準確率,其中CS程式設計題用無偏pass@k指標,其餘均用準確率指標。
從表格的實驗結果可以看出,目前市面上所有的主流大模型都沒能展現出很高的水準,即使是最先進的大模型GPT-4o,整體準確率也僅為39.97%,而其他開源模型的整體準確率則難以達到20%。這種明顯的差異突顯了該benchmark的挑戰性,證明其在推動當前AI推理能力上限的提升上發揮了很大的促進作用。此外,研究團隊觀察到數學和物理依然是最難的兩個學科,因為它們更加依賴於複雜靈活的推理能力,推理的步驟也更多,所需綜合應用的思維能力也更加多樣。而像生物、地理學科,準確率相對高一些,因為這類學科更注重考察利用豐富的科學知識解決、分析實際問題的能力,側重於對溯因、因果推理能力的考察,相比複雜的歸納、演繹推理,大模型更加善於藉助自己訓練階段獲得的豐富知識進行此類學科的分析。計算機程式設計競賽也被證明是非常困難的,一些開源模型甚至無法解決其中的任何問題(準確率為0),這表明當前模型在設計有效演算法以用程式解決複雜問題方面的能力依然有很大的提升空間。值得一提的是,OlympicArena被提出的初衷不是一味追求題目難度,而是充分挖掘大模型跨學科、運用多種推理能力解決實際科學問題的能力。上述提到的運用複雜推理的思維能力,利用豐富的科學知識解決、分析實際問題的能力,以及編寫高效、準確的程式求解問題的能力,都是在科研領域不可或缺的,也是該benchmark始終側重的。為了實現更細粒度的實驗結果分析,研究團隊基於不同的模態和推理能力進行了進一步評估。此外,研究團隊還進行了模型在題目推理過程上的評估分析。主要發現如下:各模型在邏輯推理和視覺推理能力上的表現。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和視覺比較(COM)。
幾乎所有模型在不同邏輯推理能力上的表現趨勢相似。它們在溯因推理和因果推理方面表現突出,能夠很好地從提供的資訊中識別因果關係。相反,模型在歸納推理和分解推理方面表現較差。這是由於奧林匹克級別問題的多樣性和非常規性,這些問題需要將複雜問題分解為較小的子問題的能力,這依賴於模型成功求解每一個子問題,並將子問題組合起來解決更大的問題。在視覺推理能力方面,模型在模式識別和視覺比較方面表現較好。然而,它們在涉及空間和幾何推理的任務以及需要理解抽象符號的任務中表現較為困難。從對不同推理能力的細粒度分析來看,大模型所欠缺的能力(如對複雜問題的分解,對幾何圖形的視覺推理等)正是科學研究中不可或缺、至關重要的能力,表明了AI離真正可以全方位輔助人類進行科學研究還有一段距離。不同多模態模型(LMMs)及其對應的純文字模型(LLMs)在三種不同實驗設定中的比較。
大多數多模態模型(LMMs)依然不擅長利用視覺資訊協助進行推理如上圖(a)所示,只有少數多模態大模型(如GPT-4o和Qwen-VL-Chat)在有影像輸入時相對於其對應的純文字模型表現出顯著的效能提高。許多多模態大模型在影像輸入時沒有表現出效能提升,甚至在處理影像時表現出效果下降。可能的原因包括:- 當文字和影像一起輸入時,LMMs可能更多地關注文字,忽略影像中的資訊。
- 一些LMMs在基於其文字模型訓練視覺能力時,可能會喪失其固有的一些語言能力(例如,推理能力),這在本專案的複雜場景中尤為明顯。
- 該benchmark的題目使用了複雜的文字-影像環繞的輸入格式,一些模型無法很好地支援這一格式,導致其不能很好的處理和理解嵌入文字中的影像位置資訊。
而在科學研究中,往往伴隨著非常海量的圖表、幾何圖形、視覺化資料等視覺資訊,只有當AI可以嫻熟的使用其視覺能力協助推理時,才可以有助於推動科學研究的效率和創新,成為解決複雜科學問題強有力的工具。左圖:所有模型在所有進行推理過程評估的問題中的,答案的正確率和過程的正確率的相關性。右圖:錯誤過程步驟位置的分佈。
透過對模型推理步驟進行正確性的細粒度評估,研究團隊發現:- 如上圖(b)所示,步驟層面評估的結果和僅僅依靠答案的評估之間通常具有高度一致性。當模型生成正確答案時,其推理過程的質量大多較高。
- 推理過程的準確率通常高於只看答案的準確率。這表明即使是非常複雜的問題,模型也能正確執行一些中間步驟。因此,模型在認知推理方面可能具有顯著的潛力,這為研究人員開闢了新的研究方向。研究團隊還發現,在某些學科中,一些在只參照答案評估時表現良好的模型在推理過程上表現不佳。研究團隊推測這是因為模型在生成答案時有時會忽略中間步驟的合理性,儘管這些步驟對最終結果可能並不關鍵。
- 此外,研究團隊對錯誤步驟的位置分佈進行了統計分析(見圖c),發現較高比例的錯誤發生在一題中較後的推理步驟。這表明隨著推理過程的累積,模型更容易出錯,併產生錯誤的累積,這表明模型在處理長鏈邏輯推理時仍然有很大的提升空間。
團隊也呼籲所有研究者在AI推理任務中更多地關注模型推理過程的監督和評估。這不僅可以提高AI系統的可信度和透明度,幫助更好地理解模型的推理路徑,還能識別出模型在複雜推理中的薄弱環節,從而指導改進模型結構和訓練方法。透過細緻的過程監督,可以進一步挖掘AI的潛力,推動其在科學研究和實際應用中的廣泛應用。研究團隊取樣了 GPT-4V 回答錯誤的112道題(每個學科 16 道題目,其中 8 道為純文字題目,8 道為多模態題目),並人工標註這些錯誤的原因。如上圖,推理錯誤(包括邏輯推理錯誤和視覺推理錯誤)構成了最大的錯誤原因,這表明我們的基準有效地突顯了當前模型在認知推理能力方面的不足,這與研究團隊的初衷是吻合的。此外,相當一部分錯誤也來源於知識的缺乏(雖然奧賽的題目僅僅以高中知識為基礎範圍),這表明當前模型在缺乏領域知識之外,更多的無法利用這些知識來輔助推理。另一個比較多的錯誤原因是理解偏差,這可以歸因於模型對上下文的誤解以及整合複雜語言結構和多模態資訊的困難。一個GPT-4V在數學奧賽題上犯錯的例子
檢測到的洩漏樣本數量以及相應的純文字和多模態模型在這些樣本題目上做對的數量。
隨著預訓練語料規模不斷擴大,檢測benchmark上潛在的資料洩漏至關重要。而預訓練過程的不透明通常使這項任務具有挑戰性。為此,研究團隊採用了一種新提出的例項級洩漏檢測指標,稱為“N-gram預測準確性”。這一指標均勻地從每個例項中抽取幾個起始點,預測每個起始點的下一個N-gram,並檢查所有預測的N-gram是否正確,以判斷模型是否可能在訓練階段遇到過該例項。研究團隊將這一指標應用於所有可用的基礎模型。如上圖所示,主流模型在OlympicArena上並沒有顯著的資料洩露問題,哪怕有洩露,數量相對於完整的benchmark資料集來說微不足道。例如,洩漏最多的Qwen1.5-32B模型也僅僅被檢測出43個疑似洩露的例項。這也自然而然引發了一個問題:模型能正確回答洩露的這些例項問題嗎?在這個問題上,研究團隊很驚訝的發現,即使是洩露的問題,相應的模型能回答正確的也非常少。這些結果都表明,該benchmark幾乎沒有遭受資料洩露的影響,並且保持著相當大的挑戰性,可以在接下來很長的時間保持其有效性。儘管OlympicArena具有非常高的價值,但研究團隊表示未來仍有不少工作要做。首先,OlympicArena benchmark不可避免地會引入了一些噪聲資料,作者將積極利用社群反饋來不斷改進完善。此外,研究團隊還計劃每年釋出基準測試的新版本,以進一步減輕與資料洩露相關的問題。此外,從更長遠來講,當前的基準測試僅限於評估模型解決複雜問題的能力。在未來,所有人更希望人工智慧能夠協助完成複雜的綜合任務,並在實際應用中展示價值,例如AI4Science和AI4Engineering,這將是未來基準設計的目標和宗旨。儘管如此,目前OlympicArena依然作為促進AI走向Superintelligence的催化劑,發揮著重要的作用。願景:人類與AI共同進步的輝煌時刻
在未來,我們有理由相信,隨著AI技術的不斷成熟和應用場景的不斷擴充,OlympicArena將不僅僅是一個評估AI能力的賽場,更將成為一個展示AI在各個領域應用潛力的舞臺。無論是在科學研究、工程設計,還是在體育競技等更廣泛的領域,AI都將以其獨特的方式,為人類社會的發展貢獻力量。最後,研究團隊也表示學科奧林匹克賽場也將僅僅是OlympicArena的一個開始,AI更多的能力值得不斷的探索,例如奧林匹克體育賽場將在未來成為具身智慧的競技場。[1] reStructured Pre-training, arXiv 2022, Weizhe Yuan, Pengfei Liu