探索跳躍式思維鏈:DeepSeek創造力墊底,Qwen系列接近人類頂尖水平

机器之心發表於2025-02-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在大語言模型 (LLM) 的研究中,與以 Chain-of-Thought 為代表的邏輯思維能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也稱為創造力,目前的討論和分析仍然較少。這可能會嚴重阻礙 LLM 在創造力上的發展。造成這種困局的一個主要原因是,面對「創造力」,我們很難構建一個合適且自動化的評估流程。
圖片
圖 1

過去大多數創造力測評在探索 LLM 的 Leap-of-Thought 能力的時候,仍然遵循普通大模型測評中的選擇、排序等評估型別。儘管這種評估方式對邏輯思維能力的考察非常有效,但是在對創造力的評估中則不太合理。

如下圖所示,如果要求閱讀所給圖和圖中文字,併為圖中「?」部分填入一句話,使得整體富有創造力且幽默。如果這個任務是一個選擇題型的任務,並提供了「A. 可以幫忙扶一下我嗎?」和「可以幫我解開手銬嗎?」,LLM 可能會在無需任何創造力的情況下選擇 B,因為 A 選項很常規,而 B 選項很特別。
圖片
圖 2

評估 LLM 的創造力應該是「考察其生成創新內容的能力」,而不是「考察它是否能判定創新的內容」。在當前的研究正規化中,透過人類評估或者 LLM-as-a-judge 的方式符合這一要求。然而,儘管人類評估的準確率最高且符合人類一般價值觀,但是這種方式不可持續且成本非常高。

而 LLM-as-a-judge 這種大致透過 zero-shot 或者 fine-tuning 一個 LLM 來對目標進行評分的方式,其在創造力任務上的評估能力目前仍然處於初級階段,而且不是很穩定。

面對這些困難,來自中大、哈佛、鵬城、新加坡管理大學的研究者另闢蹊徑,透過研究 LLM 產生人類高質量創新內容所需要的代價 (也可以看作是 LLM 產生內容與人類水平創新內容的距離),建立一個多輪互動的可信且自動化創造力評估正規化 LoTbench。研究成果登上了 IEEE TPAMI。
圖片
  • 論文題目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models

  • 論文連結:https://arxiv.org/abs/2501.15147

  • 專案主頁:https://lotbench.github.io

任務場景

本論文是 CVPR'24 中「梗王」大模型(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation)的期刊擴充套件,其考慮的創造力基礎任務是如圖 2 所示的,看圖並直接生成補全文字中的空缺處,使得圖文整體顯得創新且幽默。

這類任務是日本傳統遊戲「大喜利」遊戲的一種,在中文網際網路社群也被稱為日式冷吐槽。它具有如下一些特點:

1. 這類日式冷吐槽遊戲要求看圖並補全具有創意且幽默的文字,對創造力要求很高,是典型是創造力問題;
2. 這類日式冷吐槽遊戲完美符合當前多模態大模型的輸入輸出格式,即輸入時圖文,輸出僅為文字,而且是大模型最擅長的文字補全任務;
3. 這類日式冷吐槽遊戲由於在網際網路上熱度非常高,有大量高質量人類標註資料和帶有 ranking 資訊的點評資料,對構建資料集很有幫助。

綜上所述,這類日式冷吐槽遊戲是少有的適合多模態 LLM 進行創造力測評的理想平臺。

任務內容
圖片
圖 3

與一般大模型測評 (Standard Evaluation) 中選擇、排序等正規化不同的是,論文所提出的 LoTbench 考慮的是透過 LLM 產生人類高質量創新內容 (High-quality human-level response, HHCR) 所需要的總輪數構建一個創造力得分。

如圖 3 右所示,對於一個 HHCR,LLM 在給定條件下,多輪地嘗試生成和 HHCR 具有異曲同工之妙的創新響應。當 LLM 以很少的輪數產生 HHCR,可以認為 LLM 具有不錯的創造力。反之,如果 LLM 需要很長的輪數,甚至無限輪 (即無法到達),則可以認為在當前 HHCR 中創造力不足。
圖片
圖 4

基於上述思想,圖 4 展示了所提出的 LoTbench 的具體流程:
  • 精選具有人類高質量創新內容 (HHCR) 的日式冷吐槽遊戲的資料,構建 MLM task,即要求 LLM 每一輪根據圖文資訊,生成 Rt 補全給定文字空缺;

  • 判斷生成的 Rt 和 R (即 HHCR) 是否是異曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,則開始透過輪數計算創造力分數,否則進入第 3 步;

  • 要求待測 LLM 根據測評時歷史互動資訊,提出一個一般疑問句 Qt. 測評系統根據 HHCR,返回 Yes 或者 No;

  • 整理當前輪互動的所有資訊,和系統提供的提示,稱為下一輪的 history prompt,重新進入第 1 步生成創新響應環節。

創造力分數 Sc 的構建與 n 個 HHCR samples 在 m 次重複實驗有關,具體如下,
圖片
創造力分數 Sc 滿足如下特點:

1. 創造力分數與輪數成反比,輪數越少越具有創造力;
2. 當輪數趨於無限時,創造力分數趨於 0,即當前 LLM 無法到達給定 HHCR;
3. 考慮到創造力難度和多樣性,創造力分數基於多次實驗;

如何判斷異曲同工之妙(DAESO)?

why 異曲同工之妙 (DAESO)?

創造力任務的一大特點是多樣性,對於一個給定的填詞條件,玩家可以有很多符合條件的響應。如圖 5 所示,「有活力的鬧鐘」和「有活力的手機」都有相似的創新幽默之處。但是我們不能簡單地透過文字匹配、語義計算就能判斷這一點,必須引入異曲同工之妙地分析。
圖片
圖 5

how 異曲同工之妙 (DAESO) 判斷?
圖片
圖 6

在論文中,作者提出滿足異曲同工之妙 (DAESO) 的兩個響應需要滿足至少兩個條件:

1. 兩個響應有相同的核心創新解釋;
2. 兩個響應有相同的功能相似性;

功能相似性和語義相似性略有不同,如圖 6 (a) 所示。從語義角度,諾基亞和三星的語義相似度高於諾基亞和錘子;但是在砸核桃場景下,諾基亞則和錘子更加相似。如果兩個響應僅僅只有創新解釋一樣,而不是某種功能上的相似的話,那麼響應可能會偏離地比較大,比如對應圖 5 的例子也可以是「有活力的跳蚤」,但是跳蚤沒有體現「發出聲音」的功能;另外,如果兩個響應僅僅只有功能一樣,那麼響應可能會沒 get 到點,比如對應圖 5 的例子也可以是「有活力的鼓」,但是鼓沒有很好體現由於跳動所帶來的活力感。

在具體 DAESO 判斷的實現中,作者首先為每一個 HHCR 進行非常詳細的解釋標註,即解釋為什麼給定的 HHCR 是幽默且富有創造力的。接著配合突破的 caption 資訊,可以利用 LLM 在文字空間中構建對應的因果鏈條,如圖 6 (c) 所示。並構建特定的 instruction 來對 DAESO 的兩個提出的條件,在文字空間中判斷。

在文中,基於 GPT 4o mini 可以達到較少計算代價的情況下,實現對 DAESO 有 80%-90% 的判斷準確率。另外鑑於 LoTbench 會進行多次重複實驗,因此 DAESO 的判斷的準確率可以進一步得到保證。

測評結果
圖片
圖 7

透過對當前主流 LLM 的測評,如圖 7 所示,可以發現當前的 LLM 在 LoTbench 測評的意義下,創造力並不強。但和不同級別的人類相比,LLM 的創造力是具有超越人類的潛力的。

圖 8 視覺化了測評榜單中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 的創新響應,其中紅色部分為 HHCR,而藍色部分為被測 LLM 的創新輸出。值得注意的是 DeepSeek 最近推出的多模態模型 DeepSeek-VL2 和 Janus-Pro-7B 系列也進行了評估,結果顯示其創造力仍然處於人類初級階段。期待 DeepSeek 團隊後期推出更加先進的多模態大語言模型。
圖片
圖 8

更多研究細節,請參閱原文。

相關文章