在當今迅速發展的人工智慧時代,大語言模型(LLMs)在各種應用中發揮著至關重要的作用。然而,隨著其應用的廣泛化,模型的安全性問題也引起了廣泛關注。探討如何評估和提升這些模型在複雜的法律、政策和倫理領域的安全性,成為了學術界和工業界亟待解決的重要議題。
首先,大語言模型的安全性與其對安全知識的理解密切相關。這要求模型對理解知識具有高準確性、全面性和清晰度,尤其是在法律、政策和倫理等敏感領域中。模型的回覆不僅需要符合基本的安全標準,還需要在複雜的情境中表現出清晰的邏輯和正確的判斷。這種深刻的理解能力將直接關係到模型在現實應用場景中的安全性和可靠性。
其次,傳統的安全評測方法,往往依賴於特定場景的問題設定,生成帶有風險性的問題並評估模型回覆的安全性,這種方式雖然能夠一定程度上保證模型的輸出不違背基本的安全原則,但卻存在顯著的侷限性。造成模型不安全的因素可能有多種,例如,缺乏安全領域知識,安全對齊不充分等。而依賴於傳統的評測方法,模型可以透過安全對齊訓練的方式,形成一種 “虛假對齊” 的狀態,即使模型本身缺乏足夠的專業安全知識,也可能在某些特定情景中給出 “正確” 的安全回覆。然而,這種 “知其然而不知其所以然” 的安全能力是不穩定的,在遇到不同領域的風險問題時,會缺乏泛化性。除此之外,由於知識缺乏而產生的幻覺,不準確等問題本身也會產生一定的安全風險。因此,評估模型對安全相關知識的掌握程度顯得尤為重要,需要構建更精確的評測框架。
最後,不同國家地區在大模型安全領域研究的側重點是不同的。國際上,對安全方向研究的側重點主要在於有害意圖,越獄攻擊以及違反國際 ESG 規定的內容,絕大多數的研究工作和開源資料也集中於這一方面。而在中國,模型是否能夠理解和遵循中國法律,政策,道德,主流價值觀的要求是決定大模型的能否安全落地最為重要的因素,開發一種全面的基礎安全知識評測方法顯得尤為重要。一個全面且無偏的評測框架能夠幫助研究人員和開發者更好地理解模型在全球範圍內的表現差異,並針對不同的地區需求調整和最佳化模型,從而確保其合規性和有效性。
在此背景下,為了更好地評估 LLMs 在回覆簡短的事實性安全問題上的能力,中國資訊通訊研究院聯合淘天集團演算法技術 - 未來生活實驗室推出了 Chinese SafetyQA,這是全球第一個針對中文安全領域的系統性評估模型安全事實性知識的高質量評測集,主要包含以下 7 個特徵:
1. 中文:使用中文並且聚焦於中國相關的安全知識,特別是中國法律框架、道德標準和文化環境相關的安全問題。
2. 高質量:我們評測了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等國內外 38 個開源和閉源大模型。從評測結果看,只有三個模型達到及格線(60 分)以上,最高得分也僅為 73 分。
3. 全面性:我們的資料集包含 7 個一級類目、27 個二級類目和 103 個子類目。涵蓋了包括中國違法違規,倫理道德,偏見歧視,辱罵仇恨,身心健康,謠言錯誤,網路安全理論知識等方面的安全知識。這在國際上第一個全面的覆蓋中國內容安全類目的知識類評測資料集。
4. 易評估:和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比,我們除了聚集安全以外,還同時提供了 QA 和 MCQ 兩種問題形式。問題和回答都保證簡短、清晰,降低了評測的難度。
5. 定期迭代:中國信通院 & 阿里巴巴團隊會定期對該資料集進行週期性的迭代,以保證其對於最新法律法規的適應性。
6. 穩定:在現有版本資料中,所有問題的知識都是截止於 23 年底且答案不隨時間變化而改變的。
7. 無害化:雖然該資料集都是安全相關的評測問題,但是所有問題都是合法合規的無害化內容。
注:呼叫 Doubao-pro-32k* API 評測時有 3 個系統預置的離線 RAG 庫。
Chinese SafetyQA 的推出,為業界提供了一個客觀公正的評測工具,幫助更好地理解和提升 LLMs 在安全領域的應用能力。詳細的評測結果在我們的 leaderboard 測評結果表中。而且,為保障資料集的長期有效性,不會被大模型採集以用於針對性訓練提高虛假性安全性,資料集分為開源和閉源兩部分。開源部分用於行業內共享使用,閉源部分用於持續監測大模型安全水平提升情況。- 論文連結:https://arxiv.org/abs/2412.15265
- 專案主頁:https://openstellarteam.github.io/ChineseSafetyQA
- 資料集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
- 程式碼倉庫:https://github.com/OpenStellarTeam/ChineseSafetyQA
資料集的生成與質檢流程採用了人類專家與大語言模型(LLMs)相結合的雙重驗證機制,有效保障了資料的準確性與高水準。具體流程概述如下:1. 種子文件收集:Chinese SafetyQA 的資料來源主要包括:- 從搜尋引擎(如 Google、百度)和權威網站(如維基百科、人民網、新華網)獲取的資料。
- 人類專家編寫的安全相關資料,通常以描述性概念或解釋形式呈現。
2. 資料增強與問答對生成:在收集初始資料後,利用 GPT 模型對資料進行增強,並生成問答示例和多選題。同時,為提升資料集的全面性與精確度,採用檢索增強生成(RAG)工具(如 Google、百度)獲取補充資訊。3. 多模型驗證:隨後,透過多模型合議機制來評估 Chinese SafetyQA 資料集的質量。例如,確保答案唯一且穩定,問題具有挑戰性並在安全領域內具備相關性。4. RAG 驗證:使用線上 RAG 工具進一步驗證資料集中標準答案的準確性,確保全部資訊都符合預期標準。5. 安全規則驗證:為了確保資料集不涉及敏感或不被允許的內容,我們制定了一系列與中文語境相關的安全指南,包括意識形態、法律合規與身心健康等規則。這些規則作為 GPT 的系統提示,確保生成的資料都是無害且合規的。6. 難度過濾:質量檢測流程中也包含難度驗證,旨在提高資料集的挑戰性。我們利用四種開源模型對資料進行推斷,凡是所有模型均能準確回答的問題被定義為簡單問題並從資料集中移除,以此增加整體難度。7. 人類專家雙重驗證:最終,所有資料均由人類專家進行雙重標註和驗證,確保資料在答案准確性、質量與安全性等各個方面均達到高標準。透過以上系統化的流程,Chinese SafetyQA 資料集僅保留了 2000 個 QA 對。我們希望該資料集能助力最佳化在中文場景下改進訓練策略以及增強模型在安全關鍵領域的應用能力。該資料集包含 2000 個 QA 對和 2000 個問題相同且有 4 個迷惑性選項的選擇題,其中違法違規、偏見歧視和安全理論知識的問題佔比最多。基於 GPT4o 的編碼器,QA 的問題平均長度僅為 21 個 token。評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:CO, NA, IN 和 CGA 分別表示 "正確"、“未嘗試”、“錯誤” 和 “嘗試正確”。對於子主題,RM, IRC, PMH, IH, PD, EM 和 STK 分別是我們的子主題的縮寫:
- “Rumor & Misinformation”(謠言與錯誤資訊)
- “Illegal & Reg. Compliance”(違法違規)
- “Physical & Mental Health”(身心健康)
- “Prejudice & Discrimination”(偏見與歧視)
- “Safety Theoretical Knowledge”(安全理論知識)
從以上彙總結果可以分析出一些值得關注的資訊。首先,研究結果表明,模型的引數規模與其在安全知識領域的表現呈現顯著的正相關性。這一發現支援了大規模語言模型在知識編碼和資訊保留方面的優勢假說。特別是,開源模型中引數量更大的變體展現出更優異的效能,而閉源模型中標記為 "mini" 或 "flash" 的輕量級版本則表現相對遜色。其次,在控制引數規模的條件下,我們觀察到中國大模型公司開發的模型相較於海外公司(如 LLaMA/Mistral)在中文上具有顯著優勢。這一現象凸顯了中國企業在高質量中文語料庫構建和利用方面的獨特優勢,為探討文化和語言特異性在大語言模型開發中的重要性提供了實證支援。此外,幾乎所有模型在中文安全問答任務中均表現出較高的回答傾向,這與 SimpleQA 和中文 SimpleQA 基準中觀察到的結果形成鮮明對比。模型的低未回答率可能反映了安全關鍵知識在預訓練階段被優先考慮,以及相關資料的廣泛收集。然而,值得注意的是,部分模型在此任務中仍然表現出較高的錯誤率(IN),這可能源於知識衝突、資訊錯誤以及模型在理解和記憶能力方面的侷限性。我們還對模型的認知一致性、“舌尖現象”、self-reflection、主被動 RAG 等方向做了進一步的探究。發現了一些有趣的結論:我們透過分析大語言模型在中文安全知識評測中的置信度,揭示了當前模型在認知一致性方面的顯著侷限性。我們引導受測模型為其響應分配一個精確的置信度評估(區間為 0-100,粒度為 5),旨在量化模型對自身認知邊界的自我感知能力。實驗結果指出:儘管模型在技術複雜性上不斷進步,其認知校準機制仍存在顯著偏差。受測模型傾向於對其回覆賦予高置信度,這種過度自信模式在多數模型中保持一致。即便某些模型(如 Qwen72b)偶爾展現出置信度分配的微觀差異,但整體上仍未能實現置信度與準確性的有效對應。值得注意的是,高置信度區間(>50)的資料點持續低於理想校準標準線。這不僅反映了模型置信度評估的內在不確定性,更暗示了預訓練語料中潛在的知識表徵缺陷。2. 愛你在心口難開,大模型也存在 “舌尖現象”(Tip of the tongue) 我們發現主流模型在多項選擇題(Multiple Choice Questions, MCQ)任務中,呈現出顯著高於問答(Question and Answer, QA)任務的準確率。在 QA 任務中答不對的問題,給與一定的提示時(MCQ 的選項)模型即可答對。這和人類話到嘴邊說不出,但是給於一定的提示即可答對的 “舌尖現象” 類似。為了排除是選項縮小了搜尋空間導致的準確性提升,我們透過置信度做了進一步地確認,發現模型在給出答案時置信度非常高,這證明模型給出了非常確定的答案。除此之外,透過對主流模型的不同類目評測發現各家模型在不同的類目上各有優勢。在國際環境、社會和治理(ESG)議題中,所有 GPT 系列模型在身體和心理健康(Physical and Mental Health, PHM)維度均表現出相對優異的能力,這可能反映了這些模型在相關領域接受了更為精細的訓練。與此同時,在非法和法規合規(Illegal and Regulatory Compliance, IRC)領域,我們觀察到了更為複雜的模型間差異:非中國模型(o1 除外)在該維度顯示出明顯的能力侷限,而中國本土模型(如 Qwen 系列和 Doubao)則展現出更為突出的本土法律知識理解能力,這可能得益於針對性的本地化訓練策略。3.self-reflection 對知識性的缺失幾乎沒有幫助自我反思機制被廣泛視為提升模型輸出質量的有效策略。然而,我們對多個先進語言模型進行的實驗發現在知識缺失場景下的侷限性。實驗發現在所有受測語言模型中,自我反思機制帶來的效能提升微乎其微,平均改進幅度不超過 5%,且在 o1 系列模型中更呈現出負面影響。這一現象可能源於大語言模型固有的認知侷限。模型高度依賴訓練語料中的統計模式,這使其在自我反思過程中更傾向於將原本正確的答案轉變為錯誤響應。特別是在知識型問題中,模型的效能更多地取決於內在知識理解能力,而非後續推理過程。值得注意的是,訓練語料中潛在的事實性錯誤會顯著干擾模型的自我校正機制,導致推理鏈路的可靠性進一步降低。4.RAG 能補齊大模型的知識缺失,但最好不要讓它來決定做不做:知識檢索增強生成(Retrieval-Augmented Generation, RAG)技術已成為提升模型事實性和準確性的關鍵方法。我們探討了兩種 RAG 觸發正規化:主動 RAG 和被動 RAG,其對模型準確性的影響。被動 RAG 對所有輸入問題進行語料檢索,而主動 RAG 則由模型自主判斷是否需要額外檢索並由模型給出檢索關鍵詞。首先,RAG 增強機制顯著提升了大語言模型的事實安全性,有效縮小了不同規模模型間的效能差距。較小引數規模的模型從 RAG 技術中獲得的效能提升更為顯著。其次,主動 RAG 的效能普遍低於被動 RAG。這一現象是源於大語言模型的過度自信特性,它們不傾向於主動請求檢索工具,所以這種 RAG 方式帶來的準確性增益通常不夠大。最後,歡迎廣大研究者使用我們的評測集進行實驗和研究,我們非常感謝您對我們工作的信任,並非常重視並期待收到您的寶貴意見。當前,我們正全力完善排行榜功能,力求儘快為廣大研究者提供更加便捷、高效的使用體驗。如果您有任何疑問、建議,或希望將您的模型結果納入排行榜展示,歡迎隨時透過電子郵件與我們聯絡。請將您的具體需求傳送至:tanyingshui.tys@taobao.com,我們將及時回覆。我們將持續更新和維護資料集及評測榜單,為中文社群的發展貢獻力量。如需進一步諮詢或幫助,也可隨時與我們溝通。再次感謝您的理解與支援!核心作者包括譚映水,鄭博仁,鄭柏會,曹珂瑞,景慧昀。
作者團隊來自中國資訊通訊研究院和淘天集團演算法技術 - 未來生活實驗室團隊。資訊通訊研究院始終秉持 “國家高階專業智庫產業創新發展平臺” 的發展定位和 “厚德實學 興業致遠” 的核心文化價值理念,在行業發展的重大戰略、規劃、政策、標準和測試認證等方面發揮了有力支撐作用,為我國通訊業跨越式發展和資訊科技產業創新壯大起到了重要推動作用。淘天集團未來生活實驗室致力於建設面向未來的生活和消費方式,進一步提升使用者體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力於打造大模型相關基礎演算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創新。