AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
核心作者包括賀彥程,李世龍,劉佳恆,蘇文博。作者團隊來自淘天集團演算法技術 - 未來生活實驗室團隊。為了建設面向未來的生活和消費方式,進一步提升使用者體驗和商家經營效果,淘天集團集中算力、資料和頂尖的技術人才,成立未來生活實驗室。實驗室聚焦大模型、多模態等 AI 技術方向,致力於打造大模型相關基礎演算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創新。
如何解決模型生成幻覺一直是人工智慧(AI)領域的一個懸而未解的問題。為了測量語言模型的事實正確性,近期 OpenAI 釋出並開源了一個名為 SimpleQA 的評測集。而我們也同樣一直在關注模型事實正確性這一領域,目前該領域存在資料過時、評測不準和覆蓋不全等問題。例如現在大家廣泛使用的知識評測集還是 CommonSenseQA、CMMLU 和 C-Eval 等選擇題形式的評測集。
為了進一步同步推進中文社群對模型事實正確性的研究,淘天集團演算法技術 - 未來生活實驗室團隊提出了 Chinese SimpleQA,這是第一個系統性地全面評估模型回答簡短事實性問題能力的中文評測集,可以全面探測模型在各個領域的知識水平。具體來說,Chinese SimpleQA 主要有六個特點:
- 中文:專注於中文語言,並特地包含中國文化等特色知識相關的問題
- 全面性:涵蓋 6 個大類主題(中華文化、人文與社會科學、自然科學、生活藝術與文化、工程技術與應用科學、社會)和 99 個子類主題
- 高質量:我們進行了全面且嚴格的質量控制,有包括 52 位外包和 6 位演算法工程師的參與
- 靜態:參考答案都是在時間上保持不變的,保證了評測集的長期有效性,可以長期作為模型知識能力的評估基準
- 易於評估:評測資料的問題和答案非常簡短,評測可以基於任意的模型,能夠以較低成本和較快速度進行高一致性的評測。
- 有難度和區分度:我們評估了 40 + 國內外開源和閉源大模型。目前在評測集上 o1-preview 都僅剛過及格線 (正確率 63.8), 其他大部分模型都處於低分狀態,其中 GPT-4o mini 僅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 僅 11.2 和 11.1 的準確率。
基於中文 SimpleQA,我們對現有 LLM 的事實效能力進行了全面的評估。並維護一個全面的 leaderboard 榜單。同時我們也在評測集上實驗分析了推理 scaling law、模型校準、RAG、對齊稅等研究問題,後續本評測集都可以作為這些方向的重要參考之一。
總之,我們希望 Chinese SimpleQA 能幫助開發者深入瞭解其模型在中文領域的事實正確性,同時也能為他們的演算法研究提供重要基石,共同促進中文基礎模型的成長。
- 論文連結:https://arxiv.org/abs/2411.07140
- 專案主頁:https://openstellarteam.github.io/ChineseSimpleQA
- 資料集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
- 程式碼倉庫:https://github.com/OpenStellarTeam/ChineseSimpleQA
在構建 Chinese SimpleQA 資料集的過程中,我們採用了嚴格且周密的流程,確保資料質量達到高標準。主要分為自動化構建和質量控制兩個階段:(1)知識內容提取與過濾:我們從維基百科等多種知識領域中收集大量富含知識的文字內容,並利用規則和質量評估模型篩除低質量資料。(2)自動生成問答對:制定問題標準,基於高質量的知識內容,利用大型語言模型(LLM)基於標準條例自動生成問題與答案對。其中大概制定了 9 條嚴格的細則,包括:答案必須唯一且確定、答案不應隨時間變化等。(3)自動質量驗證:透過 LLM 根據預先設定的標準對生成的問答對進行初步篩選,剔除不符合要求的樣本。(4)結合工具驗證:引入 RAG 和 Agent 的方式,結合外部檢索工具收集驗證資訊,指導 LLM 進一步準確評估答案的事實正確性。(5)難度級別過濾:過濾掉過於簡單的樣本,提升資料集的難度,以發現 LLM 的普遍存在的知識邊界。具體來說,如果一個問題四個模型都能正確回答,則認為該問題過於簡單並予以捨棄。2. 質量控制階段,我們引入了嚴格的人工驗證流程:(1)每條資料在隱藏答案後交由兩位獨立的標註員進行標註,首先判斷問題是否符合預定標準。不符合的問題將被淘汰。然後要求每位標註員結合權威來源(如維基百科、百度百科)的相關資訊填寫答案,同時需要提供至少兩個參考連結,確保答案可溯源。(2)若兩位標註員的答案不一致,由第三位標註員進行復審,最終確定答案。(3)安排多名演算法工程師進行多輪抽檢與反饋,同時不斷細化標準整個構建和標註過程中,初步生成了 10,000 對問答對,經過難度評估和多輪驗證,最終只保留了約 3,000 對高質量的問答對,確保了資料集的高質量和嚴謹性,希望為評估 LLM 的事實正確性提供正確的引導。評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:我們評估了 17 個閉源模型和 24 個開源模型,排名榜如下:不同模型在 Chinese SimpleQA 上的結果。關於指標,Correct(CO)、Not attempted(NA)、Incorrect(IN) 和 Correct given attempted(CGA) 分別表示 “回答正確率”、“未回答率”、“回答錯誤率” 和 “回答精確率”。關於主題,Chinese Culture(CC)、Humanities(HU)、Engineering, Technology、Applied Sciences(ETAS)、Life, Art, and Culture(LAC)、Society(SO) 和 Natural Science(NS) 分別表示 “中華文化”、“人文與社會科學”、“工程、技術與應用科學”、“生活、藝術與文化”、“社會” 以及 “自然科學”。總的來看,o1-preview 表現最佳,同時有幾個近期專注於中文的閉源大模型(如 Doubao-pro-32k 和 GLM-4-Plus)的表現與 o1-preview 相近。從榜單表現來看,首先,“mini” 系列模型(如 o1-mini, GPT-4o-mini)的表現明顯不如其對應的大模型(如 o1-preview, GPT-4o),這表明 “mini” 系列在記憶事實知識方面有明顯的下降。其次通常越大的模型表現更好,例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未嘗試(NA)” 項上得分較高,比如 o1-mini 和 InternLM2.5-1.8B,其 NA 分數分別為 20.5 和 31.2,遠高於對應大模型的得分(如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7)。另外,各模型在不同主題上的表現差異顯著,特別是中文社群的大模型(如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek)在 “中國文化(CC)” 主題上明顯優於 GPT 或 o1 模型,而在科學相關主題(如 ETAS 和 NS)上,o1 則具有顯著優勢。我們還在 Chinese SimpleQA 上探索了 inference scaling law、模型校準、RAG、對齊稅等熱門研究課題(具體詳見論文)。得出了以下幾個有見地的發現:我們要求模型在回答問題時提供 0 到 100 的信心指數,以衡量模型的校準程度,即模型對其答案的自信程度。理想的校準模型應該是信心指數與答案的實際準確率相匹配。實驗結果顯示,GPT-4o 的校準優於 GPT-4o-mini,而 o1-preview 優於 o1-mini。在 Qwen2.5 系列中,校準效果依次為 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B,說明更大規模的模型具有更好的校準效能。此外,對於所有評估的模型,當信心指數大於 50 時,它們的信心水平都低於了完美校準線,表明它們普遍對自身回答的準確性過於自信。2.O1 提出的推理 scaling law 在事實類 QA 上也成立我們研究了不同模型在增加推理計算資源和回答準確性之間的關係。具體方式是從 Chinese SimpleQA 中隨機抽取 50 個樣本,每個樣本要求模型獨立回答 100 次。透過 Best-of-N 方法隨著推理次數的增加來計算模型的回答準確性。結果表明,隨著推理次數的增加,所有模型的響應準確性都提高,並最終達到上限。這一現象與 OpenAI o1 釋出時提出的結論表現一致。我們同時在 Chinese SimpleQA 上探討了檢索增強生成(RAG)策略在提升 LLMs 事實正確性方面的效果。我們基於 LlamaIndex 和谷歌搜尋 API 搭建了 RAG 系統。結果表明,所有模型在配置 RAG 後準確性都顯著提高,例如,Qwen2.5-3B 的效能提升了三倍多。同時,在配置 RAG 後各模型之間的效能差異也顯著減少,例如,帶有 RAG 的 Qwen2.5-3B 與 Qwen2.5-72B 的 F-score 相差僅 6.9%。這表明 RAG 可顯著縮小模型效能差距,使得較小模型在 RAG 支援下也能獲得高效能。因此,RAG 仍是增強 LLMs 事實性的一條強有效的捷徑。我們對比分析了預訓練模型與對齊後的模型在評測集上的表現。結果顯示,儘管不同模型在後期訓練後表現各異,但大多數模型的表現都顯著下降。其中,Baichuan2 系列模型下降最為明顯,Baichuan2-7B 和 Baichuan2-13B 的 F-score 分別下降了 47% 和 28%。這反映出當前大多數大語言模型的對齊訓練在幻覺緩解方面仍有明顯不足,也突顯了評測集的價值。評測集涵蓋 99 個主題和領域,能夠全面檢測模型在各個領域的知識水平,可以幫助各個領域的研究者識別最適合其特定需求的模型。目前 o1-preview 模型表現最為全面,但是評測結果展示了許多其他模型在特定垂直領域的強有力的表現(具體詳見論文和榜單)。最後,歡迎廣大研究者使用我們的評測集進行實驗和研究。淘天集團演算法技術 - 未來生活實驗室團隊將持續更新和維護資料集及評測榜單,為中文社群的發展貢獻力量。