DeepSeek R1與OpenAI模型文風相似度高達74.2%?新研究質疑DeepSeek訓練資料

机器之心發表於2025-03-04
在 DeepSeek 生成的文字中,有 74.2% 的文字在風格上與 OpenAI 模型具有驚人的相似性?這是一項新研究得出的結論。

這項研究來自 Copyleaks—— 一個專注於檢測文字中的抄襲和 AI 生成內容的平臺。
image.png
這家平臺表示,正如每個人都有獨特的指紋一樣,人工智慧也有自己獨特的、可識別的特徵。比如 DeepSeek 的文風就有一股強烈的「DS 味」:意象堆得非常滿,每句話都有通感、隱喻和互文。和其他人的文字放在一起,我們很容易看出哪段話好像背後必有 DeepSeek 指點。
圖片
來源:http://xhslink.com/a/6n6JLYTWrM36

因此 Copyleaks 開發了一種精確的方法,能夠識別具體是哪種 AI 模型寫下了某段文字,即使該 AI 故意模仿另一種寫作風格時也是如此。

具體來說,他們開發了一個由三個分類器組成的 LLM 檢測整合系統,這些分類器具有不同的架構和訓練資料。該整合系統經過訓練,可以對四大語言模型 ——Claude、Gemini、Llama 和 OpenAI 模型 —— 生成的文字進行分類。只有當整合系統中的所有三個分類器一致同意輸出分類時,他們才認為預測是有效的。Copyleaks 宣稱,該整合系統在由 Claude、Gemini、Llama 和 OpenAI 模型生成的文字測試集上得到驗證,並達到了極高的精確度(0.9988)和非常低的假陽性率(0.0004)。
image.png
藉助這個整合系統,Copyleaks 去分析四個新模型生成的文字,包括 phi-4、Grok-1、Mixtral-8x7b-instruct-v0.1 和 DeepSeek-R1,看看這些模型生成的內容與上述四大模型是否相似。分類器的最終輸出需要三個子分類器一致同意,否則會標記為「無共識」(no-agreement)

結果表明,對於 phi-4 模型生成的文字(如圖 1a 所示),整合系統在 99.3% 的文字上沒有達成一致意見;對於 Grok-1 模型生成的文字(如圖 1b 所示),整合系統在 100% 的文字上都沒有達成一致意見。這意味著,整合系統的分類器無法認定 phi-4 或 Grok-1 生成的文字與它所訓練的四大語言模型家族(Claude、Gemini、Llama 和 OpenAI 模型)中的任何一個模型的寫作風格相似。
image.png
對於 Mixtral 模型生成的文字(如圖 1c 所示),整合系統在 65% 的文字上沒有達成一致意見,有 26% 的文字被識別為由 OpenAI 生成,8.8% 的文字被識別為由 Llama 生成。

對於 DeepSeek 模型生成的文字(如圖 1d 所示),整合系統將 74.2% 的文字識別為由 OpenAI 生成,而剩下的 25.7% 的文字被標記為「無共識」。

Copyleaks 認為,phi-4 模型高達 99.3% 的「無共識」率以及 Grok-1 模型 100% 的「無共識」率表明,這些模型的風格指紋與上述四大語言模型非常不同。Mixtral 模型 65% 的「無共識」率表明,該模型主要具有獨特的風格特徵,這些特徵沒有被整合系統完全捕捉到。然而,26% 的文字被歸類為 OpenAI,8.8% 的文字被歸類為 Llama,這表明 Mixtral 與這些語言模型之間存在一定的風格相似性。

Copyleaks 強調,DeepSeek-R1 模型的結果令人矚目。74.2% 的文字被歸類為 OpenAI,這表明這兩個語言模型之間存在很強的風格相似性。
image.png
在這份報告出爐後,福布斯聯絡到了 Copyleaks 資料科學主管 Shai Shai Nisan。Nisan 將 DeepSeek-R1 與 OpenAI 模型之間顯著的風格相似性問題,引申為對 DeepSeek 訓練過程的質疑,暗示其可能使用了 OpenAI 模型的輸出作為訓練資料。

他說,「雖然這種相似性並不能明確證明 DeepSeek 是衍生產品,但它確實引發了人們對其開發過程的質疑。我們的研究專注於寫作風格,在這一領域,DeepSeek 與 OpenAI 的相似性是顯著的。考慮到 OpenAI 在市場上的領先地位,我們的研究結果表明,有必要對 DeepSeek 的架構、訓練資料和開發過程進行進一步調查。」
image.png
不過,福布斯的文章中也指出了導致這種相似性的另一個可能:資料。AI 模型可能會隨著時間的推移在風格上趨於一致,尤其是在重疊資料集上進行訓練的情況下。

此外,Copyleaks 用來檢測相似性的系統是否足夠準確、客觀也是一個值得探討的問題。

自 DeepSeek R1 走紅以來,外界對於這個模型的質疑就沒有停過,但質疑歸質疑,部署 DeepSeek 的機構還是一路猛增。
image.png
並且從縮小矩陣規模到提高運算效率,DeepSeek 上週已經開源了方方面面提高生成式演算法執行效率的核心技術,對開源精神的堅守,是對外界質疑的更好回應。

接下來,我們看一看 Copyleaks 所用的檢測方法。

Copyleaks 的檢測方法

為了讓判斷更全面,Copyleaks 分別用 OpenAI 模型、Llama、Claude 和 Gemini 生成了 5 萬條英文文字來訓練這些分類器。研究人員採用以下 5 個標準來評估分類器是否能準確地識別出某段話出自哪個 AI 之手:
  • 混淆矩陣

  • 精確率和召回率

  • F 值

  • 總體假陽性率 (FPR)

  • 宏平均 F 值 (β=0.5)

他們用 OpenAI、Llama、Claude 和 Gemini 這些 AI 模型生成的英文文字來訓練這些分類器。為了保證訓練的公平性,每個分類器都會收到相同數量來自不同 AI 模型的訓練樣本。

每個類別 i 的假陽性率代表著有多少比例的非 i 類例項被錯誤地分類為 i 類。簡單來說,看這個值就能知道分類器有多容易把其他 AI 的文字誤判為某個特定 AI 的文風,計算公式為:
圖片
總體 FPR 則是透過對所有類別的 FPR 取平均得到的:
圖片
以下是三個分類器的成績單,從準確率看,三個分類器的表現都不錯,接近 99%。
圖片
圖片
圖片
在得到這三位訓練有素的「判官」之後,為了進一步降低誤判的機率,研究人員測試了兩種交叉驗證方法 —— 多數投票制(少數服從多數)和一致同意制(必須三票贊同)—— 到底哪種更可信。
圖片
資料給出了明確答案,一致同意制的宏平均 FPR 是 0.0004,也就是三個分類器一起投票,收集全票透過的結果錯判機率極低,這也是 Copyleaks 最終選擇的統計方法。

在技術報告中,Copyleaks 給出了更詳細的資訊。
image.png
報告連結:https://copyleaks.com/wp-content/uploads/2025/03/Detecting_Stylistic_Fingerprints_of_Large_Language_Models.pdf

你覺得這個報告的結果和與之相關的推論靠譜嗎?

參考連結:
https://www.forbes.com/sites/torconstantino/2025/03/03/deepseeks-ai-style-matches-chatgpts-74-percent-of-the-time-new-study/

相關文章