早半年發arXiv,卻被質疑抄襲:活在微軟AutoGen陰影裡的CAMEL

机器之心發表於2024-07-17

arXiv 不是同行評審期刊,所以發在 arXiv 上的論文不必被引用,這合理嗎?

如果你對 AI 智慧體感興趣,那你一定知道微軟的 AutoGen。它是一個用於構建 AI 智慧體的開源程式設計框架,允許多個智慧體透過聊天來解決任務。其間,LLM 智慧體可以扮演多種角色,如程式設計師、設計師,或者各種角色的組合。

在 GitHub 上,這個專案已經收穫了 28k 的 star 量,論文還在 ICLR 2024 LLM Agent Workshop 上獲得了最佳論文獎。

圖片

不過,這篇論文的背後其實是存在爭議的。

2023 年 11 月,一位 AI 研究者(阿卜杜拉國王科技大學博士,開源專案 Camel-AI.org、DeepGCNs.org 的發起人李國豪)發帖稱,由於 AutoGen 與他們的論文 CAMEL 高度相似,他們每次出席活動的時候都會被問,二者有什麼區別?

圖片

圖片

對此,李國豪表示非常無奈,因為他們的論文釋出在 arXiv 上的時間要明顯早於 AutoGen,如今卻被當成了 AutoGen 的模仿者(CAMEL 釋出於 2023 年 3 月;AutoGen 釋出於 2023 年 8 月)。

圖片

論文連結:https://arxiv.org/abs/2303.17760

圖片

論文連結:https://arxiv.org/pdf/2308.08155

根據李國豪的說法,二者在方法論上存在以下相似之處:

圖片

甚至用到的例子也有點相似:

圖片

圖片

作為後來者,AutoGen 確實在論文中提到過 CAMEL,並指出了 CAMEL 與 AutoGen 之間的一些差異。但這些內容出現的位置令人費解 —— 它們統統出現在附錄中。這可能也是導致其他研究者只知 AutoGen,不知 CAMEL 的一大原因。畢竟,有幾個人會去仔細看附錄呢?

圖片

AutoGen 論文中提及 CAMEL 的段落:「CAMEL(Li et al., 2023b)是一個通訊智慧體框架,它展示瞭如何使用角色扮演來讓聊天智慧體相互交流以完成任務。CAMEL 還能記錄智慧體對話以進行行為分析和能力理解。CAMEL 使用了一種「inception-prompting」技術實現智慧體之間的自主合作。與 AutoGen 不同的是,CAMEL 本身不支援工具使用(如程式碼執行)。儘管 CAMEL 被提議作為多智慧體對話的基礎設施,但它只支援靜態對話模式,而 AutoGen 還支援動態對話模式。」

圖片

表 1 為 AutoGen 與其他相關多智慧體之間的差異總結,從四個指標著手判斷:一是基礎結構,即系統是否設計為構建 LLM 應用程式的通用基礎結構;二是對話模式,即系統支援的模式型別。在「靜態」模式下,無論輸入如何,智慧體拓撲結構都保持不變。AutoGen 允許靈活的對話模式,包括可以根據不同應用程式需求定製的靜態和動態模式。三是可執行,即系統是否可以執行 LLM 生成的程式碼;四是人工參與,系統是否(以及如何)允許人工參與執行過程。AutoGen 允許人工靈活地參與多智慧體對話,並允許人工選擇跳過提供輸入。

圖片

AutoGen 論文中提及 CAMEL 的段落:「AutoGen 可以幫助開發能力超強的智慧體,充分利用 LLM、工具和人類的優勢。建立這樣的智慧體對於確保多智慧體工作流能夠有效地排除故障並在任務中取得進展至關重要。例如,我們觀察到,另一個多智慧體 LLM 系統 CAMEL 在大多數情況下無法有效解決問題,主要是因為它缺乏執行工具或程式碼的能力。這一失敗表明,僅有簡單角色扮演的 LLM 和多智慧體對話是不夠的,還必須有具備各種技能的高階能力智慧體。我們認為,開展更系統的工作,制定針對特定應用的智慧體指南,建立大型 OSS 知識庫,並建立能夠發現和提升自身技能的智慧體是必要的。

在 AutoGen 提交給 ICLR 主會議審稿期間,CAMEL 一作李國豪在公共評論區指出了這一問題,並強調這是「值得注意的遺漏」。

圖片

在針對 AutoGen 的審稿意見中,ICLR 的審稿人和領域主席也指出了這種做法的不妥之處。

圖片

其中,領域主席寫道,「作者確實在附錄中討論了這一工作,但這種做法是不可取的,因為補充材料的稽核級別與論文的稽核級別不同。簡而言之,這似乎允許作者說他們引用和討論了論文,但實際上並沒有在 99% 的人可能閱讀的論文部分進行引用和討論。我認為這種做法令人擔憂。」

圖片

那 AutoGen 的作者為什麼這麼做呢?他們回覆說:在他們將論文提交給 ICLR 2024 時,CAMEL 等論文尚未在同行評審會議 / 期刊上發表。根據 ICLR 2024 審稿人指南,他們沒有義務引用這篇論文或與之比較(CAMEL 於 2023 年 9 月被 NeurIPS 2023 錄用;ICLR 2024 審稿人指南規定,在 2023 年 5 月 28 日之後發表的論文不需要引用)。

圖片

同時,他們列出了論文中涉及 CAMEL 的部分:

圖片

鑑於 ICLR 規定在先,領域主席也不好多說什麼。他寫道,「雖然我理解這項政策背後的基本原理,但在當前的出版氛圍下,它可能會導致奇怪的結果。由於 ICLR 的政策,我不會將其納入我的決定中,但這會降低我的信心。」

關於李國豪提及的相似性,AutoGen 作者也給出了反駁意見:

圖片

針對審稿人提出的問題,他們回覆如下:

圖片

最終,和 CAMEL 之間的相似性以及引用問題並未作為論文的主要問題被領域主席考慮在內。不過,AutoGen 論文最終還是因為其他原因被拒(所以後來作者轉投了 ICLR 2024 LLM Agent Workshop)。

根據李國豪的說法,兩篇論文的作者其實線上下見過面,但發生了一些不愉快:

圖片

李國豪希望能夠透過發帖引起學術界的重視。

圖片

對此,你怎麼看呢?

相關文章