Google AI發資料集論文、辦挑戰賽卻拒絕開放資料集?結果被懟了……

機器之心發表於2019-01-17

Google AI發資料集論文、辦挑戰賽卻拒絕開放資料集?結果被懟了……

原帖主要內容是:

谷歌曾在 ACL 2018 上發表了一篇資料集論文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,該資料集 Conceptual Captions 共有大約 330 萬張影像。但他發現了幾個問題:

  • 谷歌拒絕共享預訓練模型,這使得基準測試變得異常艱難:

  • https://github.com/google-research-datasets/conceptual-captions/issues/3;

  • 拒絕共享與每張影像相關的 Alt 文字(諷刺的是這篇論文的標題中恰好有 Alt-text 一詞):

  • https://github.com/google-research-datasets/conceptual-captions/issues/6;

  • 拒絕共享影像/映象連結(儘管我認為這關乎法律問題,但僅有該資料集的幾百張影像,社群很難對比不同模型):

  • https://github.com/google-research-datasets/conceptual-captions/issues/1

發帖人表示對此很難過。他希望社群意識到資料集論文是一項重大責任,如果存在阻擋資料集共享的法律問題,那麼可以基於私人資料發表論文,但是基於同樣的模型或整個資料集舉辦挑戰賽的行為不太好。

此帖發出後,引發了網友的大量討論。有網友認為谷歌這麼做沒什麼問題,他們的任務是分享研究、把研究成果作為自己的優勢,而不是相反。但評論中更多的是對這種行為的反對。

反對此類行為

網友_michaelx99 表示:

DeepMind 發表的好幾篇論文也是僅依靠論文字身完全無法復現。這讓我意識到發表在 arXiv 或企業網站上的「論文」並不是真正的發表,其主要目標是表明該企業已經具備了某種能力。我並不是說所有大企業線上發表的論文都這樣,但其中一些確實如此。

ModernShoe 表示:

我曾聽吳恩達談論商業如何利用 AI 盈利。他說企業應該保護訓練/測試資料集,而不是保護某個演算法。或許這與資料集論文不公佈資料集有某種關係?

網友 epic:

這種行為不利於科學和機器學習的發展。雖然我們理解谷歌不釋出資料集的原因,但這種行為仍然是不好的。尤其是資料集論文,在沒有資料的情況下復現研究及其困難。有能力的組織和人們應該作為表率來引領社群,而不是相反。

網友 SkinnyJoshPeck:

這是對機器學習機器學習專家的海量需求的後果嗎?我在一家大企業工作,與機器學習科學家接觸較多,他們當中一些人缺乏對科學方法的基本尊重,這令我非常驚訝。我認為這並非技巧的缺乏(一些研究已經發表),而是不明白「可觀的結果未必是準確、有效的」。

我的大學專業是數學,而且專門學習了代數。我瞭解表示論和代數幾何,因此我知道大多數模型和技術的底層數學基礎,這些讓我對這些專家能夠坐在現在的崗位上感到驚訝。

復現性

網友 GoAwayStupidAI:

復現性是科學的重要標誌。沒有相關資料、結果無法復現的研究都是垃圾。

網友 kemfic:

論文就應該是可復現的。如果不能,那麼期刊就不應該接收它們。

網友 duckbill_principate:

讓我覺得困擾的不是共不共享模型、程式碼或者資料集的問題,而是在這種事情發生的時候論文仍然被接收了。這某種程度上是同行評審的失敗,其責任則屬於我們每一個審稿人,因為這樣的論文往往是基於信任或權威而被接收的(我們知道盡管有雙盲評審,但我們不難推斷出某些論文一般會來自哪個研究組)。這更像是廣告而不是科學。

網友 duckbill_principate:

在我實現的 20 多篇論文中,5 篇存在部分或完全影響研究結果驗證的錯誤/bug。而這些論文都是頂會上經過同行評審的論文。

我認為這是學術醜聞。

有些案例中問題被揪出來,作者進行了修改。但即使是在這種比較好的場景中,修改數字後的論文(可能使用了全新的引數搜尋!)靜悄悄地出現在 arXiv 上,而發表在會議上的論文並沒有修改,更不會被撤回。為什麼?大家都知道原因,也熟悉那些辯護理由:「儘管我們的結果不如預想中的好,但我們認為這項技術非常棒,非常有前途……」不管是從數學角度,還是從沒有所謂的「當前最優結果」的論文不該被接收的角度,這種說法都非常糟糕。

網友 habanero_ass_fire 認為:

OpenImages 的圖片是從網上獲得的,其他幾個比較知名的資料集也是如此。就法律意義上來看,圖片的作者擁有版權,因此論文作者是不能共享這些圖片的。另外,無效的連結在現實中經常發生。因此我對這種沒有公開資料集的行為沒有意見,只要他們能夠分享一個預訓練模型即可;如果你可以依照論文訓練出自己模型,即使沒有預訓練模型也不會讓論文無效。

但這立刻遭到網友 duckbill_principate 的反駁:

如果你能夠訓練出一個模型精確復現,那沒問題。但如果你曾試圖復現論文時就會明白,實際情況往往是,即使那些釋出了自己程式碼且提供定義清晰且可用的資料集的論文,復現的結果也往往是不可預測的。他們是公佈了自己的程式碼和引數,但卻可能沒有說明自己的訓練過程;他們公佈了訓練程式碼,但卻可能遺漏了部分自定義庫;他們使用了公共資料集,但卻沒有明確說明他們對這些資料集做了什麼樣的預處理;他們公佈了程式碼、資料集,甚至也對此做了大量且詳盡的說明,但卻可能遺漏一些非常關鍵的內容,等等不一而足。

事實是,如果沒有預訓練模型,或者沒有對訓練過程的完整描述,談復現性就是一個笑話。

正如網友所說,在沒有資料的情況下復現研究及其困難,尤其是資料集論文

關於研究復現的討論由來已久,前段時間在某篇 CVPR 論文復現出現問題時,大家更是對頂會/期刊論文復現性進行了大量討論。不少人認為論文復現也應該作為同行評審中的重要部分。有網友表示「總體而言,論文評審過程不包含復現實驗結果。評審者不得不在很大程度上依靠作者的誠信」、「同行評審通常更關心論文中描述的方法。潛在的解決辦法是要求作者提交現成的實現(如通過 docker)。然而,在哪裡執行仍然是一個問題。也許 AWS 資源等可以從提交費用中提取,供評審人員重新執行模型。然後,問題是確保評審人員不會「濫用」資源進行他們自己的實驗等。在任何情況下,「通過計算的方法」進行 DL 論文評審都很棘手」。

學術會議對研究復現也很重視。2017 年,ICML「機器學習復現 Workshop」就對這一問題進行過討論;2018 年,ICLR 舉辦了復現挑戰賽,旨在保證接收論文公佈的結果是可靠的、可復現的。此外,為了鼓勵可復現性和高質量論文的提交,ICML 2019 在論文提交上做出了一些重要改變,如鼓勵提交的論文附帶程式碼,結果的可復現性和程式碼的易用性將作為論文接收和進一步決策的考慮因素。KDD 2019 的徵稿通知中也表明:今年會議採取雙盲評審制度,論文接收結果公佈之前投稿者不得將論文釋出於 arXiv 等開放性平臺上。更重要的是,只有在論文中公開研究程式碼和資料的論文才有資格競選「最佳論文獎」。

科學研究的復現性非常重要,機器學習社群一貫重視開放性、復現性,而這需要社群人們的維護。上述學術會議的變化無疑將促進研究復現性,鼓勵研究人員更加審慎地對待自己的研究、更加開放地共享研究的具體細節。那麼具備強悍研究能力和開發能力的大型企業會不會做好表率呢?

參考連結:https://www.reddit.com/r/MachineLearning/comments/agiatj/d_google_ai_refuses_to_share_dataset_fields_for_a/

相關文章