IJCAI 2020滅霸式拒稿,AI審稿是否更公平?

AIBigbull2050發表於2020-03-12

一、IJCAI 2020滅霸式拒稿引眾怒

隨著AAAI 2020於2月7日作為2020年人工智慧學界的第一個頂會在美國紐約開幕,人工智慧相關領域的研究者們又要為新一年的頂會忙碌了。對於AI界的研究者來說,一年的進度條几乎是靠數著頂會 deadline 來過的。儘管“投稿→rebuttal→接收/被拒→繼續(斐波那契式)投稿”是很多研究者的日常,但是,被拒後質疑審稿機制、評審人水平,繼而引發大規模吐槽的網路事件每年都在發生。

就在半個月之前,IJCAI 2020就以拒稿率達到史無前例的42%的審稿方式又在網上炸開鍋。知乎上,很多研究者貼出拒稿信的截圖,根據其中內容,很多研究者的工作在評審第一階段——summary reject 階段就被拒稿了,甚至沒能進入正式的審稿過程。

summary reject是一種快速審稿的流程,放在正式的評審階段之前。在這一階段,論文一般會被髮送給幾位 Senior PC(SPC)。這些 PC 會花10分鐘左右時間,根據論文的摘要、總結等部分,對論文情況有一個大概的估計。如果他們認為這篇論文不能進入下一階段,則由領域主席做最終的決定。當下,頂級的人工智慧會議要面對動輒 5000 甚至上萬的投稿量。如果不提前過濾論文,每個審稿人都有著巨大的壓力。此外,隨著人工智慧的興起和技術門檻的逐漸降低,越來越多的人參與到人工智慧研究中來,隨之而來的還有大量“灌水”論文。因此,引入summary reject來過濾低質量論文、降低審稿人工作量是非常有必要的。


IJCAI 2020滅霸式拒稿,AI審稿是否更公平?

知乎網友貼出“灌水”論文證據

不過,真正讓很多投稿人不滿的是,本次IJCAI 2020大會summary reject似乎是SPC隨機選擇的,這樣一來,很多人的論文存在被誤殺的可能性。

一位參與了 IJCAI 2020 summary reject的決策過程的SPC,紐約大學坦登工程學院的副教授 Julian Togelius就表示,他發現很難決定哪些論文值得 review,特別是那些非自身領域的論文。因此,選擇 reject 哪些論文也幾乎是隨機的。此外,Julian Togelius 還推測大多數 SPC 會遇到 summary reject 決策困難的情況,並且很多 SPC 只是簡單地拒絕了那些看起來與他們熟悉的研究不太一樣的論文。顯然這種做法會對一些小的子領域和新興的研究主題造成重大打擊。

IJCAI 2020滅霸式拒稿,AI審稿是否更公平?

IJCAI 2020滅霸式拒稿,AI審稿是否更公平?

圖片來源:知乎

更令人沮喪的是,論文投稿的一個重要意義在於:即使沒被選中,也可以透過同行評審來獲得反饋,從而促進研究者進一步提升能力,完善研究。但是,在summary reject 階段就被拒稿的論文是不會收到任何拒稿理由的,這樣無法為他們帶來實際的反饋,無助於他們提升自身的能力,下次做出更好更有水平的成果。很多人認為,沒有提供理由/反饋就拒絕論文是非常不科學的,這樣非常打擊年輕的研究人員的積極性。不少人發帖表示,“大半年的工作,沒給任何理由就直接reject,心態真的炸裂”。



二、AI頂會評審機制暴露的問題

事實上,這並不是IJCAI第一次引起爭議。去年,IJCAI 2019就被很多人質疑審稿質量,甚至被評“本屆IJCAI審稿宇宙最爛”。其他引起爭議的頂會有AAAI 2019,一名中國知名高校的計算機博導發表公開信,實名投訴AAAI 2019評審不專業;ICLR 2020 ,當審稿結果放出後,有開發者給出了一個統計結果:“本次大會近半數審稿人沒有在相關領域發過論文。”投稿者覺得自己“浪費感情”,審稿人又覺得“我太難了”等等。

總之,近年來,隨著AI頂會的投稿量越來越大,爭議的聲音也越來越多,內容直指當前同行評議體系的缺陷。同行評審是社群中的其他專家對一份學術工作進行的全面審查,是傳播科學成果的關鍵一環。然而,頂會論文投稿量的破紀錄增長和合格評審者數量不足之間的矛盾使得同行評審過程舉步維艱。為了審查所有的投稿論文,大會組織者不得不擴充評審者團隊,並不可避免地將一些資歷不深的學生也包括進來。這可能導致,花了幾個月或幾年時間寫論文的作者最後收到的是不合理、欠考慮或不公平的評審結果。除此之外,審稿機制本身也存在缺陷,如審稿人許可權過大,缺乏監督、很容易謊報資歷,嚴重影響文章質量等。

IJCAI 2020滅霸式拒稿,AI審稿是否更公平?

或許正是由於此類原因,一些會議在學術圈的口碑正在慢慢下滑。比如在最新版的《清華大學計算機學科推薦學術會議和期刊列表》中,IJCAI 已經從人工智慧與模式識別方向 A 類學術會議"降級"到 B 類的學術會議。

事實上,各大頂會也並非沒有認識到問題,目前組織者試圖透過各種方法來降低審稿人負擔,包括限制每個人的投稿數、禁止一稿多投、提高拒稿重投門檻等等。比如IJCAI 2020規定每位作者的投稿數不能超過 6 篇,而去年的規定是不超過 10 篇。NeurIPS、ICLM 近幾年都都發布了禁止一稿多投的規定。此外,還有前文所說的,可以利用summary reject來過濾低質量論文等等。不過,照目前趨勢看,頂會擴招論文似乎已不可逆轉,無論是 AAAI、ICLR 還是 NeurulPS,每年都在重新整理記錄,對於如何把握評審質量、保持頂會權威性,依然需要繼續探索。



對此,一些曾經或即將擔任頂會程式主席的學者的見解非常值得參考:

1、論文評審委員會如何組織、如何選人、如何應對大量論文

如今各個 AI 會議都很容易出現審稿人不足的狀況,即將擔任IJCAI 2021程式主席的南京大學周志華教授認為,可以讓投稿論文的作者也承擔一些審稿工作。首先這直接增加了可以參與審稿的人數;其次,從個人和集體的關係來看,提交論文讓別人審是論文作者享受了來自整個學術社群的服務,那麼他也應當為學術社群做出一些服務,比如審別人的論文。

此外,在審稿過程中,可以根據審稿人的資歷來安排不同的任務或者做法,比如安排多位經驗學識較淺的學者共同決定一篇論文的質量,但資深學者可以獨立決定一篇文章。

至於如何避免一稿多投,他建議針對同一篇論文的審稿意見可以在不同的會議之間通用,這樣一來,時間順序靠後的會議就不必重審這篇論文。

2、如何改進評審過程

應對大量的論文投稿,IJCAI 2020程式主席、蒙彼利埃大學教授Christian Bessiere提到可以考慮採用全新的審稿和發表機制,比如採取每月發表的方式,對應地,作者們就可以在全年中的任意時間投稿,然後論文評審和錄用結果公佈都是每月進行。這種方式可以克服很多目前會議集中審稿帶來的問題。儘管Bessiere教授的建議是徹底顛覆性的,但論文評審制度一直摸索中改革,最後走向哪種模式目前並不可知。從這一點,我們能看到電腦科學家們探究本質、勇於創新的品質。

3、如何保證審稿人認真負責

對於如何確保審稿人能夠認真負責地審稿,目前有這樣一個觀點得到很多人認可,即使用積分制度,提出了高質量評審意見的審稿人、乃至被評為優秀審稿人的學者可以獲得一些積分,然後各個會議就可以只允許有積分的人投稿多篇論文(第一篇投稿可以不需要積分)。

4、如何制止論文投稿與評審過程中的不當行為

論文投稿與評審過程中的不當行為包括:許多論文會涉及利益衝突,比如審稿人會給來自自己同事的論文打更高的分數,但給不熟悉的、乃至對於自己辨認出來自競爭對手的論文打更低的分數;在論文評審過程中,審稿人之間故意洩露作者身份;論文作者在投稿時為了提高中的機率,會把相同的研究寫成幾篇略有區別的論文分別投稿;在評審過程中,有些作者收到了審稿意見,但是不願意修改自己的論文,只想儘快投到下一個會議等等。

針對利益衝突,周志華教授認為我們需要一定的利益衝突檢測機制,在論文分配過程中進行調整。而IJCAI 2013程式主席、巴爾-伊蘭大學教授Sarit Kraus否定了當前學術界“唯論文”的風氣,他認為投稿中的不當行為其實是我們自己培養出的怪物:根本原因是年青學者有很大的壓力發表論文,如今許多東西都和發表的論文數量掛鉤,所以他們也只能想盡辦法讓自己的論文能夠錄用。

AAAI 2014 程式主席、得克薩斯大學奧斯汀分校教授 Peter Stone則提到了對整件事的“道”的想法:也許我們可以指定一些規則,規定了哪些事是不可以做的,但是我們人類總是能會想辦法找到漏洞、繞過規則。改善這件事,我們需要更多鼓勵好的行為、讓好的行為成為大家效仿的樣板。



三、AI或能協助審稿

專家們提出的都是機制上的改革,而有些人則從技術層面想辦法,試圖用AI來改善同行評議過程,提高發表研究的質量,並且節省評閱人的時間。

例如,在打擊學術造假方面,來自美國紐約雪城大學的機器學習研究員丹尼爾·阿庫納等在2018年開發出一套演算法,能利用人工智慧識別學術論文中的影像造假,對論文圖片進行查重。他們分析了生命科學領域來自4324本期刊的76萬篇開放獲取論文,並從中提出有效的263萬張圖片。其中,約有9%的影像存在高度重複。該團隊又在其中選取了約4000張可疑圖片進行人工核查。經測算,在所有論文中,約1.5%存在學術不端的嫌疑,0.6%確認存在影像方面的論文造假。

在提取關鍵概念,總結文章核心內容方面,出版業巨頭愛思唯爾旗下的同行評審管理系統Aries Systems採用了一款名為StatReviewer的軟體,用於檢查來稿中的統計資料和方法是否真實可信。與此同時,廣受歡迎的同行評審平臺ScholarOne正在與丹麥奧爾胡斯的UNSILO開展合作。UNSILO使用自然語言處理和機器學習等技術對來稿進行分析,並自動提取關鍵概念來總結文章的核心內容。此外,UNSILO還會識別出最有可能代表作者觀點和發現的關鍵詞語,從而讓編輯對作者的研究成果有粗略的瞭解。UNSILO還能夠高亮出文章中與其他論文相似的觀點,用於檢測學術不端行為,或者將其與學界其他相關研究聯絡在一起。但無論機器起了什麼作用,最終的決定權仍然掌握在編輯手中。

在質量控制和評審員識別方面,總部位於瑞士的學術出版商 Frontiers(《前沿》)也在透過 AI 工具 AIRA(Artificial Intelligence Review Assistant)協助審稿人和編輯,以提高效率。AIRA 系統由內部自定義 演算法 以及行業領先的工具構建,例如 Google,CrossRef 的 iThenticate 和 Editage 的 Ada。AIRA 目前主要進行兩項關鍵同行評審任務:質量控制和評審員識別。其演算法根據一組質量指標(包括文字重疊、語言、人體影像的存在和其他倫理考慮),來快速準確地評估提交的稿件。達到既定質量門檻的稿件將被傳遞給編輯,而有任何潛在問題的都會被送到審查團隊進行進一步調查。

不過,儘管目前學術界已對AI參與同行評議有一些嘗試,但大多數人依然存在較大顧慮,其中一點在於,利用過去發表的論文訓練的機器學習工具會強化已有的同行評議偏見。另外,目前利用AI來實現同行評審存在技術上的困難,因為同行評審最重要的職責是確保研究新穎,沒有重複前人老路,儘管AI能夠查閱文獻,找出哪些問題仍懸而未決,但它目前無力辨認顛覆性的科學新發現。所以,AI參與同行評審還有很長的路要走,但由於同行評議過程中的許多步驟是標準化的,因此,研究評議過程自動化是非常有積極意義的。

或許是為了嘲諷人類的偏見,2018年底,arXiv上釋出了一篇論文引起了極大的關注。該研究基於論文的視覺外觀訓練了一個分類器來預測一篇論文應該被接收或者拒絕。該論文作者為弗吉尼亞理工學院助理教授 Jia-Bin Huang,同時他也是CVPR 2019、ICCV 2019的領域主席。

這篇有趣的論文剛剛公開就在 Twitter 上引發熱議。文章表示,好的論文版面非常重要。該研究中僅基於論文視覺外觀訓練出的分類器可以拒絕 50% 的壞論文,只有 0.4% 的好論文沒被接收。然而,作者把訓練出的分類器應用到這篇論文字身時,該論文遭到了無情拒絕,且拒絕機率高達 97%。不少人認為作者在搞笑,當然也有很多人嚴肅讀論文,辯論資料、結論的不合理之處。甚至有人說,研究揭示了論文評審中本就存在的人類偏見。

誠然,人類的偏見無法消除,目前也無法設計出完整的可解釋、可糾正的、能夠讓評審員僅憑藉提取的資訊採納或者拒稿的AI審稿工具,但我們不妨期待,當 AI 工具加入論文評審大軍後,審稿人能夠從其他環節中節省更多時間,從而認真評審我們的論文,給每位投稿人一個滿意的答覆。



四、樹立正確評價嚮導,破除“唯論文”不良導向

最後要說一點, 儘管頂會審稿機制存在諸多爭議,但在投稿數量逐年遞增的各大頂會中,“灌水”論文數量水漲船高也是不爭的事實。於是,不斷有聲音在呼籲,“不要再只盯著論文看了”。深度學習先驅、蒙特利爾大學計算機系教授,2019 年圖靈獎獲得者Yoshua Bengio就在個人部落格反思,頂會論文的 Dealine 讓人疲於應對,對於提升研究質量來說弊大於利,機器學習研究的發表模式是時候開始變革了。

確實,從過去幾十年來看,學術氛圍發生了不小的變化。如今,人工智慧領域的論文規模正在呈指數型增長,競爭氛圍強烈,節奏快,這讓每個人都背上了很重的壓力,促使很多人一有新的想法就急於發表,唯恐其他人會在某處做了與自己相同的工作。如今,一個博士生在畢業前發表的論文數量,比二三十年前的博士生多了一半不止。AI領域的研究幾乎完全進入了會議發表模式,這種模式與傳統期刊論文相比發表節奏更快,但是無法經過多次的修訂之後提升內容質量。

所以, 儘管我們的生產力更高了,但是這種迫於壓力的“生產力提高”對論文質量和內容深度造成了破壞。許多可能包含錯誤、不夠嚴謹或者只是做了簡單的增量提升的論文都趕在 Deadline 之前提交了上去,很多人甚至沒有充足的時間去檢查內容。此外,現在也有攀比論文發表數量的氛圍,尤其是作為一作或者共同一作的論文。

對此,很多學者呼籲,大家是時候思考慢科學了。因為有價值的、重要的研究進展是需要一個過程的,需要研究者用一些時間去深入思考,繼而小心求證。正如香港中文大學助理教授周博磊發表《和 CVPR 十年來的不解之緣》寫道:“在所謂的 AI 研究確實變得越來越 cheap,門檻越來越低的時候,以及大家都隨地吐痰的時候,並不意味著你也可以吐。保持對科研的敬畏和好奇,這條路才能越走越寬,越走越遠。”

正是如此,2月17日,科技部印發《關於破除科技評價中“唯論文”不良導向的若干措施(試行)》的通知,明確科技評價中要實施分類考核評價,注重標誌性成果的質量、貢獻和影響,矯正在科技評價中過度看重論文數量多少、影響因子高低,忽視標誌性成果的質量、貢獻和影響等“唯論文”的不良導向;2月18日,教育部、科技部聯合印發《關於規範高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》的通知,提出需要整頓“唯論文”“SCI至上”的風氣,並列舉一系列相應的糾偏舉措:加大 #發 表國內高質量期刊論文的要求、降低SCI和影響因子在學術評標準中的地位、收緊論文發表費用、推行論文代表作制度、不將 SCI 論文指標作為招聘和畢業的前置條件。

這兩條重磅檔案同樣對電腦科學(同樣包括人工智慧領域)有廣泛影響。北京交通大學於劍教授和西安電子科技大學高新波教授認為,"頂會頂刊模式"是當今中國大陸計算機流行的科研模式,該模式曾推動了中國科學技術的進步和發展,但如今卻成為科學原創性的阻礙。於劍教授認為,頂會、頂刊的論文,大多體現的是熱點問題與時髦方法,從而相同方向的研究者會很多。所以頂會、頂刊的論文,大多是熱點問題的擴充套件修正或熱點方法的延伸改進,特別適合學生和年輕老師練手。但是,頂會頂刊並不代表科研最高水平,對於研究人員、特別是正高階職稱研究人員而言,不宜再以“頂會頂刊模式”作為自己追求的“大目標”,而只能作為訓練學生的“小目標”。正高階職稱研究人員應當不再滿足於跟蹤模仿、改進修正的“從1到N”的研究,而是要追求原始創新、顛覆既有的“從0到1”的研究。即便沒能徹底解決問題,能提出原創問題或猜想也很好。

為此,我們迫切需要改進科研評估體制,特別是關於科研人員評估體制的改進,如此才能有一批研究者不以短期目標為主,能夠追求更長遠的目標。讓我們期待,“樹立正確評價導向”能逐漸摸索出合理的制度,在這樣制度的保護下,一批屠呦呦式的科研人員一定會不斷湧現。

如您想與我們保持交流探討、持續獲得資料科學領域相關動態,包括大資料技術類、行業前沿應用、講座論壇活動資訊、各種活動福利等內容,敬請掃碼加入資料派THU粉絲交流群,紅數點恭候各位。


編輯:文婧

校對:林亦霖

—完—






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2679752/,如需轉載,請註明出處,否則將追究法律責任。

相關文章