在測試集上訓練,還能中CVPR?這篇IEEE批判論文是否合理?

機器之心發表於2018-12-24

今日,一篇論文帖子在 Reddit 的機器學習版塊引起了大家的關注。該論文表示 Concetto Spampinato 等人 2017 年的 CVPR 論文存在錯誤。但從討論來看,這篇批評論文同樣引起了網友的質疑。

Reddit 討論地址:https://www.reddit.com/r/MachineLearning/comments/a8p0l8/p_training_on_the_test_set_an_analysis_of/

該論文對 Concetto Spampinato 等人 2017 年的 CVPR 論文《Deep Learning Human Mind for Automated Visual Classification》進行了分析,得出結論:這篇論文以及該實驗室隨後的 7 篇論文的結果都有誤。

  • 論文標題:Deep Learning Human Mind for Automated Visual Classification

  • 論文地址:http://perceive.dieei.unict.it/deep_learning_human_mind.php

在圍觀 Reddit 討論之前,讓我們先看看批評者們都怎麼說:

在測試集上訓練,還能中CVPR?這篇IEEE批判論文是否合理?

論文地址:https://arxiv.org/abs/1812.07697

以前 CVPR 2017 有一篇論文學習對受試者觀察 ImageNet 影像時記錄到的 EEG 資料進行分類,且使用學習到的分類器來訓練一個純粹的計算機視覺模型。在此論文中,ImageNet 中的圖片做為刺激訊號展示給接受 EEG 記錄的受試者,然後訓練一個結合全連線層和 ReLU 層的 LSTM 來預測記錄到的 EEG 訊號的影像刺激類別。其中 ReLU 的輸出反映了人類對認知的神經編碼。為了得到一種能產生同樣認知編碼的計算機視覺系統,這篇論文又把已有目標分類器的輸出迴歸到論文聲稱的這種人類認知神經編碼中。

那篇論文作出了三個宣告:

  • 我們提出了一種能對影像啟用腦電波的 EEG 資料進行分類的深度學習方法,這種方法在處理目標類別的數量與分類準確率上都超越了頂尖方法。

  • 我們提出首個由大腦訊號驅動的計算機視覺方法,也就是首個利用視覺描述符進行自動分類的方法。這種視覺描述符直接提取自人類進行視覺場景分析時的神經處理過程。

  • 我們將會公開這一最大的視覺目標分析 EEG 資料集,且附上相關開原始碼與訓練模型。

特別是他們的論文近一步宣告:

  • 相比於先前的研究,我們的方法能夠分類大量(40)目標類別,特別是在 EEG 訊號上。

  • 相比於先前分類 EEG 訊號的研究,我們方法的分類準確率高的多(82.9%)。

此外,此論文更是用盛讚之詞表達其宣告的結果:

在本論文中,我們希望在經典 BCI 方面取得重大突破,即旨在探索一種新型和直接的人類參與形式,並用於自動視覺分類。這個方法潛在的觀點是學習一種大腦訊號對視覺類別的判別性流形,這可以透過分類 EEC 訊號實現。也就是說讀取大腦訊號,並將影像對映到這樣的流形上以允許機器執行自動視覺分類,這一過程可以說是將人類的視覺能力遷移到機器。

解碼物件類別相關的 EEG 訊號以用於計算機視覺方法,這種方法的影響是很巨大的。首先,識別基於 EEG 的判別性特徵可能會提供一些關於人類視覺感知系統的洞見,其中這些判別性特徵可用於視覺分類。因此,它將極大地提高基於 BCI 的應用效能,並實現新形式基於腦的影像標註。其次,將影像有效地投影到新的基於生物學的流形中將徹底改變物件分類器的開發方式(主要是在特徵提取方面)。[31,§1pp.6809-6810]

我們做了很多實驗與分析,且分析結果不禁讓我們懷疑上面 CVPR 2017 原論文的宣告。具體的,我們發現採用的分類器會讓長期靜態腦啟用的使用會比獨立刺激的時間長。由於前面那篇 CVPR 2017 論文采用了塊設計(block design),所有給定類別影像的刺激都連續呈現給受試者,因此所採用的分類器傾向於在「塊」期間內對大腦的活動進行分類,這似乎與刺激的影像類別很大程度上並不相關。

分類器對 EEG 訊號中的 DC 和極低頻(VLF)分量的依賴性加劇了這種情況,這些分量反映了「塊」期間的任意長期靜態心理狀態,而不是動態的大腦活動。由於測試集中的試驗與訓練集樣本試驗都來自相同的「塊」,這相當於在測試時獲取了相同靜態心理狀態,從而「竊取」了訓練資訊。因此那篇 CVPR 2017 論文能獲得極高的分類準確率,它隱性地在測試集上做訓練!

當我們使用快速事件重新設計實驗時,發現用不同影像刺激獲得的訊號完全是隨機的,分類準確率下降到了隨機選擇。因此,這使得我們懷疑隨後 7 篇論文的結果與宣告(完整的名單讀者可查閱原論文)。我們的實驗最終表示潛在任務遠遠要比表面看起來難得多,並且遠遠超出現有的技術水平。同樣,實驗結果最終也表明了那 8 篇廣泛發表的論文過於樂觀了,它們的結果同樣也是有誤的。

Reddit 討論

這篇帖子昨日釋出之後,引起了多位研究者的討論,有從標題開始批評論文《Training on the test set? An analysis of Spampinato et al. [31]》的,也有從技術層面對這兩篇論文進行討論的。機器之心編譯介紹了部分評論,感興趣的讀者檢視原帖。

網友 singularineet 表示:

怎麼直觀理解這篇論文要表達的意思呢?我們來打個比方。比如,你想訓練一個分類器來分析 X 光片以檢測癌症。這些 X 光片會顯示其拍攝的時間(假設 X 射線機器會在早上進行校正,並在一天內隨時間逐漸漂移,並且這種漂移效應會立刻出現在 X 光片中)。並且,有高度優先權的已知得了癌症的病人會在早上拍 X 光片,其他人安排在下午。那麼,你的模型就能僅透過拍攝時間來準確地預測癌症。

同理,Spampinato 等人的研究中使用了 EEG 電極,導電霜是乾燥的,電極接觸不良等。因此,他們的實驗引入了很多噪聲,種種完全無關因素導致 EEG 的系統性漂移,並展示在影像中。此外還有外部噪聲的干擾,比如空調溫度等。

由於影像類是在同一類的塊中呈現的,因此網路所要做的就是根據其他偶然要素進行預測,而不是尋找與影像類本身有關係的要素。

這些效應在腦成像領域中是眾所周知的,這就是為什麼實驗方案總是平衡的,並且嘗試透過消除有害訊號來去除偽像。因此,批評論文中的所有注意力都集中在訊號過濾問題上。

jande8778 更是直接批評《Training on the test set? An analysis of Spampinato et al. [31]》一文是他讀過的最糟糕的論文。

我讀過的最糟糕的論文。讓我們從標題開始,其表明 [31] 的作者在測試集上訓練,這是不對的。另一方面,[31] 的作者使用的 DL 技術是有意義的,如果他們證明使用不同資料集的那些方法的有效性,他們的研究應該沒問題。

儘管如此,旨在發現 EEG 資料集偏差的批評部分還是有意義的。

jande8778 繼續說這篇批判論文最淺顯、最糟糕的部分是試圖拒絕採用 DL 方法進行腦電波的分類與生成。他說:「評論他人的研究可能要比做研究更難,需要更嚴謹一些。」

其中,論文的一作 C. Spampinato 也對此帖作出了回覆。他表示雖然批判論文的標題選了一個眾所周知的禁忌,但他自己不是特別在乎,除了自己的名字出現在標題上。

此外,關於討論中一些技術細節,Spampinato 也給出相應的解釋。例如批判文章最大的質疑,即 CVPR 2017 的那篇論文采用塊分析,連續地將相同類別的訓練集與測試集給受試者,因此分類器學到的可能只是靜態腦電波。Spampinato 表示這可能是一個假設,但是移除極低頻和 DC 等可能影響的噪聲後,分類器還是能實現很好的效能。此外,Spampinato 表示他們會做更多的研究與調查弄清楚這一假設。

相關文章