DeepSeek-R1、o1都低於10%,人類給AI的「最後考試」來了,貢獻者名單長達兩頁 机器之心 發表於2025-02-08
隨著 AI 大模型在一個又一個的任務上達到乃至超越人類水平,人類文明似乎已經進入了與 AI 共生的時代。 為了跟蹤 AI 的發展進度,適當的基準必不可少。但現在,由於 AI 發展的速度實在太快,已有的基準已經開始不夠用了。比如在常用的基準 MMLU 上,當今前沿的 LLM 已經能達到超過 90% 的準確度了!這就限制了對前沿 LLM 能力的精確度量能力。 基於此現狀,Center for AI Safety(AI 安全中心)與 Scale AI 聯合打造一個名字相當吸引眼球的新基準:Humanity's Last Exam ,即「人類的最後考試 」,簡稱 HLE 。 論文標題:Humanity’s Last Exam 論文地址:https://arxiv.org/pdf/2501.14249 從名字也能看出來,其背後必然有一個雄心勃勃的團隊。據介紹,HLE 是一個「位於人類知識前沿的多模態基準」,其設計目標是成為「同類中具有廣泛學科覆蓋範圍的終極封閉式學術基準。」 現目前,HLE 已包含 3000 個問題,涉及上百門學科,包括數學、人文科學和自然科學。其中的問題主要由適合自動評估的多項選擇題和簡單問答題構成;每個問題都有一個已知的解,該解非常明確且易於驗證,但無法透過網際網路檢索快速回答。 為了構建 HLE 基準,Center for AI Safety 與 Scale AI 向全球不同學科的專家尋求了幫助,最終讓該論文有了一份長達兩頁、近千人的資料集貢獻者名單: 該團隊也使用該基準測試了一些 SOTA 模型,結果如下。很顯然,HLE 相當難。 HLE 包含 3000 多個高難度問題,涉及一百多個科目,概況見下圖 3 。 雖然這些問題已公開發布,但該團隊也表示還維護著一個私有的測試集,其中包含一些用來評估模型過擬合現象的問題。 該團隊在技術報告中分享了 HLE 基準資料集的收集過程:「HLE 是一項全球合作的成果,其中的問題來自 50 個國家 / 地區的 500 多個機構的近 1000 名學科專家貢獻者 —— 主要由教授、研究人員和研究生學位持有者組成。」 問題風格 :HLE 包含兩種問題格式:精確匹配問題(模型提供確切的字串作為輸出)和多項選擇題(模型從五個或更多答案選項中選擇一個)。HLE 是一個多模態基準,其中 10% 的問題需要同時理解文字和影像。80% 的問題是精確匹配型問題,其餘的是多項選擇題。提交格式 :為確保問題的質量和完整性,該團隊設定了嚴格的提交標準。問題應該準確、明確、可解且不可搜尋,確保模型不能依賴記憶或簡單的檢索方法。 所有提交內容必須是原創的,或者是基於已發表資訊的非平凡合成版本,但也會接受未發表的研究。 問題通常需要研究生水平的專業知識或高度特定主題的測試知識(例如,精確的歷史細節、瑣事、當地習俗),並且有領域專家接受的具體、明確的答案。 當 LLM 能提供正確答案但推理有誤時,希望作者能修改問題引數,例如答案選項的數量,以阻止假正例。 要求明晰的英語和精確的技術術語,並在必要時支援 LATEX 標註。 答案要簡短,並且對於精確匹配的問題,答案要容易驗證,以支援自動評分。 禁止開放式問題、主觀解釋題和與大規模殺傷性武器有關的內容。 獎金池 :為了吸引高質量的投稿,該團隊還設立了一個獎金池,其中包含 50 萬美元。對於前 50 個問題,每個獎金 5000 美元,接下來的 500 個問題每個獎金 500 美元,具體由組織者決定。正是由於這種這種激勵結構,加上任何被 HLE 接收的問題的作者都有機會成為論文合著者,吸引了有資歷專家的參與,尤其是那些在其領域內擁有高階學位或豐富技術經驗的專家。收集完成後,該團隊還組織人手對收集到的問題進行了稽核,下圖展示了其稽核流程: 有了基準,自然得對當前的模型進行一番評估。該團隊評估了 SOTA 模型在 HLE 上的效能表現,並分析了它們在不同問題型別和領域上的能力。 這些模型表現如何呢?如下表所示,整體表現可以總結為一個字:差。 從 GPT-4o 到 DeepSeek-R1,當前最佳的模型的準確度表現都沒能超過 10% 。目前官網也已經更新了 o3-mini 的成績,其中 high 版本能達到 13% : OpenAI CEO Sam Altman 還表示 o3-mini-high 如果使用 Deep Research ,則其在 HLE 上的準確度更能倍增至 26.6% 。 該團隊表示:「如此低分的部分原因是設計使然 —— 資料集收集過程試圖過濾掉現有模型可以正確回答的問題。然而,我們在評估時注意到,這些模型的準確度也都不是零。這是由於模型推理中固有的噪聲 —— 模型可能會不一致地猜對正確答案,或者猜中多項選擇題答案的機率低於隨機。」因此,這些模型在該資料集上的真正能力底線仍然是未知的,接近零準確度的微小變化並不能有力地表明進展。 鑑於這些模型在 HLE 上表現不佳,該團隊表示應該在考慮到不確定性的前提下校準模型,而不是自信地提供錯誤答案,畢竟模型存在虛構/幻覺現象。為了測量校準誤差(Calibration Error) ,該團隊讓模型提供答案的同時還提供置信度(範圍是 0% 到 100%)。經過良好校準的模型宣告的置信度應該與其實際準確度相匹配 —— 例如,在聲稱置信度為 50% 的問題上實現 50% 的準確度。 而表 1 的結果表明所有模型的校準都很差。在 HLE 上,模型經常以高置信度提供錯誤答案,這表明這些模型無法分辨這些問題何時超出其能力範圍。 token 數量 :具有推理能力的模型需要更多的推理時間計算。為了在評估中闡明這一點,該團隊分析了各個模型使用的完成 token 的數量。如圖 5 所示,所有推理模型都需要生成比非推理模型多得多的 token 才能提高效能。該團隊指出:「未來的模型不僅應該提升準確度,還應該努力實現計算最佳化。 」該團隊表示,雖然目前的 LLM 在 HLE 上的準確度非常低,但最近的歷史表明,這個基準很快就會飽和 —— 前沿模型的效能可在短時間內從接近零到接近完美。 他們預計,到 2025 年底,模型在 HLE 上的準確度就可能超過 50% 。 如果模型能在 HLE 上取得高準確度表現,則說明其在封閉式、可驗證的問題和前沿的科學知識上具備了專家級的表現,但僅靠這個基準,並不能表明模型已經具備自主研究能力或者已經是所謂的「通用人工智慧」。HLE 測試的是結構化的學術問題,而不是開放式研究或創造性解決問題的能力,因此這是一個重點關注技術知識和推理的測量指標。 該團隊寫到:「HLE 可能是我們需要對模型進行的最後的學術考試,但它遠非 AI 的最後一個基準。 」