注水、佔坑、瞎掰:起底機器學習學術圈的那些“偽科學”

大資料文摘發表於2018-07-15

最近的機器學習圈讓人有些看不懂。

一邊是今年的NIPS迎來了創紀錄的8000多篇投稿,一邊是李飛飛、Keras框架的作者François Chollet等大佬攤手承認,機器學習發展已進入瓶頸期。

對此,卡耐基梅隆大學的Zachary C. Lipton教授和史丹佛的Jacob Steinhardt教授聯合發表題為《Troubling Trends in Machine Learning Scholarship》的論文。

他們毫不留情面地指出:機器學習圈內有太多搞“偽科學”的現象!

介紹

機器學習(ML)研究人員共同致力於創造和傳播有關資料驅動演算法的知識。在研究人員撰寫的論文中,他們可能力求實現以下這些目標:理論地描述可學習的內容,通過嚴謹的實驗來加深理解,或者構建具有高預測準確性的系統。

雖然確定對哪些課題進行調查研究可能是主觀的,但一旦主題確立,論文只有(客觀地)從讀者的需求出發,創造基礎性的知識,並儘可能表述清楚,才能做出最有價值的學術貢獻。

什麼樣的論文能最好地為讀者服務呢?我們可以列舉出這樣的論文需要滿足的條件。這些論文應該:

1. 幫助讀者基於直覺進行理解,但直覺解釋要和證據所支援的更強有力的結論區分開來;

2. 描述那些考慮並排除了其他假設的實證調查[62];

3. 明確理論分析與直覺或經驗主張之間的關係[64];

4. 使用正確的語言幫助讀者理解,選擇術語以避免誤導或使用未經證實的概念內涵,防止與其他定義的衝突,或與其他相關但不同概念的混淆[56]。

機器學習不斷有新的進展,儘管這些進展經常偏離這些理想目標。在本文中,我們著重關注以下四種ML學術上的偏離趨勢:

1.未能區分解釋和推測。

2.未能確定實驗增益的來源,例如當增益實際上源於引數調整時,卻強調增益是源於對神經網路模型架構的不必要的修改。

3.濫用數學:數學的使用或混亂或表達過度而沒有達到應使概念明晰的效果,例如:混淆技術和非技術概念。

4.濫用語言,例如通過選擇具有口語內涵的專門術語或過載已有的技術術語。

這些趨勢背後的原因未明,這可能是由於ML學術圈的快速擴張,由此導致的稽核人員日益供不應求,以及學術和成功的短期衡量標準之間經常出現的錯位激勵(例如文獻引用量,注意力和創業機會)等因素。雖然每種模式都或多或少有了相應的補救措施,但我們還是想整體討論一下這個問題,對學術圈要如何應對這些趨勢提出一些不成熟的小建議。

隨著機器學習的影響日益增長,研究論文的受眾逐漸擴充到了學生、記者和政策制定者,甚至更廣泛的群體。我們希望研究論文可以通過清晰地傳達更準確的資訊,來加快研究進度,縮短新研究人員的入行時間,並在公共話語中發揮更具建設性的作用。

學術研究的漏洞會誤導公眾,動搖ML的知識基石,從而阻礙未來的研究。實際上,在人工智慧的歷史中,更廣泛地說,在科學研究中,許多這些問題已經周而復始地迴圈發生。 

1976年,德魯麥克德莫特[53]指責人工智慧學術圈放棄了自律,並預言警告說“如果我們不能做自我批評,別人遲早會替我們來完成。”類似的討論在整個80年代,90年代[13,38,2]中再次出現。在心理學等其他領域,不良的實驗標準削弱了大眾對該學科權威的信任[14]。目前機器學習的強大力量要歸功於迄今為止大量嚴謹的研究,包括理論研究[22,7,19]和實驗研究[34,25,5]。通過提倡清晰的科學思考和交流溝通,我們可以繼續維持我們學術圈目前所享有的來自學術社群的信任和投資。

宣告

該文選取的案例多數來自於機器學習圈內的資深科研者。考慮到新人缺乏對等的渠道回應或反擊我們的質疑, 我們不對他們的作品作過多評價。

令人堪憂的趨勢

在下面的每一小節中,我們將(1)描述一個趨勢;(2)提供相應的幾個例子(正反皆有);(3)解釋後果。指出個別論文中的弱點可能比較敏感,所以為了最大限度地減少這樣的影響,我們儘量使得例子簡短而具體。

解釋與推測

對新領域的研究通常涉及以直覺為基礎的探索,這些直覺尚未融合成清晰的知識觀點。我們認識到推測作為一種方式,可以讓作者傳授可能尚未經過嚴格科學稽核的直覺理解。然而,有些論文通常以解釋為幌子發表實則是推測的觀點,而由於科學論文一貫嚴謹的聲譽和作者被假定的專業性,這些推測被進一步視為了權威。

例如,[33]圍繞一個稱為內部協變數偏移(internal covariate shift)的概念提出了一個直觀的理論。從摘要開始,對內部協變數偏移的闡述似乎表明了文章陳述的是技術事實。然而,文中沒有清晰定義關鍵術語,因而不能最終確定真值。例如,該文指出批量標準化(batch normalization)通過減少訓練過程中隱藏啟用層(hidden activation)分佈的變化改進了模型。

那麼是通過哪種散度度量來量化這種變化的呢?該論文從未澄清過。有些研究表明這種對批量標準化的解釋可能並不正確[65]。然而,[33]中給出的推測性解釋已被作為事實引用,例如在[60]中指出,“眾所周知,由於內部協變數偏移問題,深度神經網路很難被優化。”

我們自己也因為將解釋包裝成猜測而同樣問心有愧。在[72]中,JS表示“高維度和大量的無關特徵為攻擊者提供更多空間來構建攻擊”,卻沒有進行任何實驗來衡量維度對攻擊性的影響。而在[71]中,JS引入了直觀的覆蓋概念而沒有對其進行定義,並將其用作一種解釋形式,例如:“回想一下,缺乏覆蓋率的一個症狀是對不確定性的不良估計和無法產生高精度預測。”回顧過去,我們希望傳達對論文中描述的工作具有重要意義的想法,我們不願意將我們論證的核心部分標記為推測性的。 

與上述例子相反,[69]將推測與事實做了區分。雖然這篇文章中介紹了dropout regularization(訓練神經網路的一個小技巧),並詳細推測了dropout和有性生殖之間的聯絡,但卻專門把這些推測放入了一個名為“動機”的部分,明確地將兩者區分開來。這種做法既避免了讓讀者感到困惑,同時作者也能夠表達其非正式的想法。

在另一個正面的例子中,[3]提出了訓練神經網路的實用指南。在這裡,作者仔細表明瞭不確定性。該論文沒有將指南作為權威提出,而是說:“雖然這些建議來自多年的實驗,並且在某種程度上是經過數學驗證的,但我們仍舊應該提出質疑並改進。這些建議是一個很好的起點,但通常沒有經過正式的驗證,留下許多問題可以通過理論分析或堅實的比較實驗工作來解決。”

無法明確經驗成果的真實來源

機器學習專家評審過程中非常重視技術創新。也許為了滿足評論者的這一需要,許多論文都強調複雜的模型(在這裡提到)和花哨的數學(見§3.3)。雖然複雜模型有時是合理的,但也還有其他很多方向同樣可以帶來經驗成果:通過巧妙的問題公式、科學化的實驗,優化上的經驗積累,資料預處理技術,廣泛的引數調整,或通過將現有方法應用於有趣的新任務。有時,一系列提出的技術共同取得了重要的實證結果。 在這些情況下,它需要讀者自己去理解哪些技術是該報告所必需的核心技術。

很多時候,作者提出了很多調整,但沒有進行適當的消融研究(ablation study,指通過切分研究/對照實驗/條件刪減等,來排除其他因素干擾),以至模糊了取得經驗成果的來源。有時候,僅僅是其中一項的調整導致了結果的改進。這可能會給讀者一種假象,即作者做了大量的工作(提出了幾項改進措施),而事實上,作者做的並不夠(沒有進行適當的消融研究)。此外,這種做法誤導讀者相信所有提到的更改都是必要的。

最近,Melis等人[54]驗證了其中一系列他們已經公佈的成果:這些成果最初被歸因於網路架構的複雜創新,實際上是由於更好的引數調整。同樣的,從1997年以來幾乎沒有被修改過的最初版本的LSTM(長短期記憶網路)一直表現卓越。所以說,Melis等人的研究最重要的部分其實是引數調整。對於深層強化學習(deep reinforcement learning)[30]和生成性對抗網路(GAN)[51],也已經發現類似的評估問題。有關經驗嚴謹性和後果失誤的更多討論,請參見[68]。

相比之下,許多論文進行了良好的消融分析[41,45,77,82],甚至回顧性的嘗試將實驗成果的來源分離開,這也可能導致新的發現[10,65]。不過,消融其實並不是我們理解一個新方法的充要條件,並且考慮到算力因素也不一定實際可行。對方法的理解同樣可以源於對魯棒性的檢驗(例如[15]發現現有的語言模型無法處理屈折語素)以及錯誤的定性分析。

經驗性研究旨在加強理解,甚至可以在沒有新演算法的情況下發揮作用。例如,探測神經網路的行為導致識別它們對對抗性擾動的敏感性[74]。仔細的研究也經常揭示致力於重新整理挑戰資料集基線的侷限性。[11]研究設計一個用於閱讀理解新聞段落的任務,並發現73%的問題可以通過檢視單個句子來回答,而只有2%的問題需要檢視多個句子(其餘25%的例子要麼模稜兩可、要麼共指錯誤)。

此外,更簡單的神經網路和線性分類器在此例中要優於以前任務中評估的複雜神經架構。基於同樣的精神,[80]為Visual Genome Scene Graphs的資料集(視覺基因組)分析並構建了的強基線。

濫用數學

在我們(ZL)撰寫早期的博士論文時,我們收到了一位經驗豐富的博士後的反饋,他聲稱該論文需要更多的公式。博士後並沒有認可該系統,但卻清楚地透露了論文稽核的“潛規則”——更多的公式更有助於評論者相信論文的技術深度,即使有些公式難以理解。

數學是科學交流的重要工具,正確使用時可傳遞精確性和清晰度。然而,並非所有的想法和主張都適用於精確的數學描述,自然語言同樣是一種不可或缺的交流工具,尤其是關於直覺或經驗主張的交流。

當數學和自然語言陳述混合在一起而沒有清楚地說明它們的關係時,文章和理論都會受到影響:理論中的問題會被模糊的定義來掩蓋,同時薄弱的論點會被技術深度的表象支援。我們將這種正式和非正式的主張的糾結稱之為數學濫用,正如經濟學家Paul Romer所描述的這種模式:“就像數學理論一樣,數學濫用利用語言和符號的混合,但並沒有做緊密的關係連線,而是在自然語言宣告和正式語言宣告之間留下了足夠的滑動空間。”

數學濫用表現在幾個方面:

第一,一些論文濫用數學來表示技術深度 – 旨在“威嚇”而非澄清。假定理是常見的罪魁禍首,這些定理插入到論文中強行賦予經驗主義結果權威性,即使定理的結論實際上並不支援論文的主要主張。我們(JS)在[70]中犯了這個錯誤,其中對“staged strong Doeblin chains”的討論與提出的學習演算法不怎麼相關,但是給讀者帶來了一種理論深度感。

提出Adam優化器[35]的文章也犯了同樣的錯誤,這證明了這個問題無處不在。在介紹它是一個在實證上表現強大的優化器的過程中,它還提出了其在凸案例中收斂的定理,而這在關注非凸優化的應用文章中是不必要的。這個證明後來在[63]證明中是不正確的。

其次,看似正式卻又不正式的主張同樣帶來諸多問題。例如,[18]認為優化神經網路的困難不是來自區域性最小值,而是來自鞍點。作為一項證據,這項工作引用了一篇關於高斯隨機場的統計物理論文[9],並指出高維高斯隨機場的所有區域性最小值都可能有一個非常接近全域性最小值的誤差(類似的陳述也出現在[12]的相關研究中)。

這可能是一個正式的主張,但缺乏一個特定的定理使其很難驗證聲稱的結果或確定其準確內容。我們的理解是相較於說(區域性最小值和全域性最小值)差值在高維度下會消失,這個主張其實算是更(部分)數學一些了。但我們需要一個更正式的宣告來明確這一點。同樣是在[18]我們發現另一個觀點,即區域性最小值比起鞍點上的損失函式要小,則被更明確地宣告且測試論證。

最後,一些論文以過於寬泛的方式引用理論,或者引用一些不太具有針對性的定理。例如,“沒有免費午餐”的定理通常作為使用沒有保證的啟發式方法的理由,即使該定理並沒有將有保證的學習程式排除出去。

雖然數學濫用的最好補救方式就是避免它,但有些論文會進一步做出好的示範。最近的一篇關於反事實推理的論文[8]非常紮實的包含了大量的數學基礎,並且與其應用的經驗性問題有明確的關係。這個指導,清晰明瞭的提供給讀者,有助於促進新興社群研究機器學習中的反事實推理。

語言誤用

我們發現在機器學習方面關於語言的誤用通常可以分為三類:暗示性定義、術語過載、“行李箱詞”。

暗示性定義

第一類中,研究者會生造出一個一個新的技術術語,並使它具有具有一定的暗示性。這通常體現出擬人化特徵(閱讀理解[31]和音樂創作[59])和技巧(好奇心[66]和恐懼[48])。許多論文以提示人類認知的方式命名所提出的模型的組成部分,例如, “思想載體[36]”和“意識先驗[4]”。

我們的目標不是要消除含有這些語言的所有學術文獻; 如果合理,這些語言的運用可能會傳達富有成效的靈感來源。然而,當一個暗示性術語被指定了技術含義時,其後的論文別無選擇地會使自己的讀者困惑,不管是通過接受該術語或通過替換它。

用不太嚴謹的“人類”表現來描述經驗結果也會表現出對當前能力的錯誤認識。以[21]中報導的“皮膚病專家級的皮膚癌分類器”為例,將其與皮膚科醫生比較,會掩蓋皮膚癌的機器分類與皮膚科醫生的診斷是根本不同的任務的事實。真實情況下,皮膚科醫生會遇到各種各樣的情況,儘管有不可預測的變化,但他們必須完成工作。但是,機器學習分類器僅在假設的i.i.d(樣本互相獨立並且滿足同一分佈)測試集上實現了低誤差。

相比之下,[29]中的人類表現則明確聲稱是在ImageNet分類任務(而不是更廣泛的物件識別)中表現得更出色。即使在這種情況下,一篇嚴謹的論文(在許多不那麼謹慎的[21,57,75]中)也不足以扭轉公共話語風向而使其重回正軌。流行文章繼續將現代影像分類器描述為“超越人類能力並有效地證明更多的資料將導致更好的決策”[23],儘管有證據表明這些關聯依賴的是虛假的相關性,例如:將“穿紅衣服的亞洲人”錯誤分類為乒乓球[73]。

深度學習的論文不是唯一犯過這一類錯誤的; 濫用語言困擾著ML的許多子領域。 [49]討論了最近關於ML公平性的文獻如何經常過多地使用從複雜的法律學說中借用的術語,例如“不同的影響”,來命名錶述統計平等概念的簡單方程。 這導致了一類文獻,其中“公平”,“機會”和“歧視”這些詞常用來表示簡單預測模型的統計量,這混淆了忽視差異的研究人員,以及讓政策制定者誤解了將道德需求納入ML的難易程度。

技術術語過載

第二種濫用途徑包括採用具有精確技術含義的術語,並以不精確或相互矛盾的方式使用它。例如“解卷積(deconvolution)”,它嚴格描述了數學上逆轉卷積的過程,但現在在深度學習文獻中,它用於指代自動編碼器生成對抗網路中常見的轉置卷積(也稱為向上卷積)。這個術語首先出現在[79]深入學習中,它確實解決了反摺積問題,但後來被過度放大為指代任何使用上卷積的神經架構[78,50]。

這種術語的過載會造成持久的混亂。涉及反摺積的新機器學習論文可能是(i)呼叫其數學上的原始含義,(ii)描述上卷積,或(iii)試圖解決混淆,如[28]中所述,其中被尷尬地用“上卷積(解卷積)”來描述這一過程。

我們另舉一例,生成模型(generative models)傳統上是輸入為分佈p(x)或聯合分佈p(x,y)的模型。相反,判別模型(discriminative models)是在給定輸入標籤的條件分佈p(y | x)。

然而,在近期的研究工作中,“生成模型”被不太精確地用於指代能產生逼真結構化資料的任何模型。從表面上看,這似乎與p(x)定義一致,但它掩蓋了幾個缺點——例如,GAN(生成對抗網路)或VAE(差分網路)無法執行條件推理(例如從p(x2 | x1)取樣,其中x1和x2是兩個不同的輸入特徵)。

進一步解析這個術語,一些判別模型現在被誤認為是生成模型因為它們能產出結構化的資料[76],這是我們(ZL)在[47]中犯的錯誤。為了尋求解決困惑並提供可追溯的歷史背景,[58]區分正統的和隱含的生成模型

再來看看批量標準化,[33]將協變數偏移描述為模型的輸入分佈的變化。實際上,協變數偏移是指特定型別的偏移,即儘管輸入分佈p(x)可能會改變,但標記函式p(y | x)不會變[27]。此外,由於[33]的影響,谷歌學者搜尋引擎將批量標準化列為搜尋“協變數偏移”時的第一個返回參考。

誤用語言的後果之一是(與生成模型一樣),我們把一些未解決的問題重新定義成更簡單的任務,以此隱瞞遲緩的進展。這通常通過擬人命名與暗示性定義相結合。語言理解和閱讀理解,曾經是AI的巨大挑戰,現在具體指向在特定資料集上做出準確的預測[31]。

“行李箱詞”

最後,我們來討論ML機器學習論文中過度使用“行李箱詞”的情況。該詞由Minsky在2007年出版的“情感機器”[56]一書中首次使用,指的是一個詞彙集多種意義的現象。

Minsky描述了諸如意識,思考,注意力,情感和感覺一類,不只是由單一的原因或起源引起的心理過程。ML中的許多術語都屬於這一類。例如,[46]指出,可解釋性沒有普遍認同的含義,並且經常引用不相交的方法和需求。因此,即使看起來彼此對話的論文也可能是不同的概念。

另舉一例,“泛化”具有特定的技術含義(從訓練集到測試集的泛化)和一種更通俗的含義,接近於轉移(從一個群體推廣到另一個群體)或外部有效性(從實驗環境推廣到現實世界)[67]。將這些概念混為一談會高估當前系統的能力。

暗示定義和過載術語會導致新的行李箱詞。在公平文獻中,法律,哲學和統計語言經常被過載,類似“偏見”這樣的術語會變成行李箱詞而迫使我們將其拆解[17]。

在常見的演講和鼓舞人心的話語中,行李箱詞可以起到有效作用。有時行李箱詞反映了將各種含義統一起來的總體概念。例如,“人工智慧”可能是一個學術部門的理想名稱。另一方面,在技術論證中使用行李箱詞可能會導致混淆。 例如,[6]寫了一個涉及術語“智慧”和“優化能力”的等式(方框4),隱含地假設這些行李箱詞可以用一維標量來量化。

關於這些趨勢背後的原因的一些思考

上述模式是否代表趨勢,如果是,那麼潛在原因是什麼?我們推測這些模式正在擴大,並認為可以歸因為幾個可能的因素:面對進步的自滿情緒,社群的迅速擴張,審查人員團體的人數有限,以及獎學金激勵與短期成功措施的不一致。

面對進步的自滿情緒

機器學習領域的快速進展有時會造成這樣一種態度,即強有力的實證結果可以作為掩蓋弱論點的藉口。獲得有效結果的作者可能會被許可插入任意缺乏論據支援的故事,只要存在能推導結果的因素(見§3.1),而省略那些旨在解開這些因素的實驗(§3.2),採用誇大的術語(§3.4),或濫用數學公式(§3.3)。

與此同時,審查過程的單一性質可能會使審稿人感到他們別無選擇,只能接受獲得了強大的實證定量結果的論文。實際上,即使論文被拒絕,也不能保證在下一個階段中這些缺陷會被注意或修正,因此審稿人可能會認為,接受有缺陷的論文是最好的選擇了。

“成長”的煩惱

自2012年左右以來,由於深度學習表現出色,機器學習愈發受歡迎,該領域也發展迅速。我們將行業的快速擴張視為一種積極的發展訊號,但它同時也存在一些副作用。

為了保護資歷尚淺的作者們,我們傾向於引用我們自己的以及著名研究者的文章。然而,新研究者們可能會更容易受此模式影響。例如,對術語並不瞭解的作者們更容易錯用或重新定義文字。另一方面,有經驗的研究者同樣會落入此陷阱。

快速增長還會從兩方面減少文章審批者的數量——被提交文章的數量相對審批者的數量增加,同時富有經驗的審批者的比例降低。經驗不足的審批者更可能追求結構上的創新,而被虛假的定理所矇蔽雙眼,忽視嚴重卻難以發覺的問題,如語言不當使用。這會助長甚至導致上述的幾大趨勢。同時,富有經驗卻負擔過重的審批者可能會轉為“打鉤模式”,即他們傾向於更加八股文的文章,否決有創造力或聰明有遠見的作品——這些作品與人們熟知的論文模板往往相去甚遠。此外,過度工作的審批者可能並沒有時間去解決甚至注意提交報告中所有的問題。

 錯位的激勵

為論文作者們提供糟糕激勵的並不只有審批者。隨著機器學習逐漸引起媒體的關注,以及機器學習初創企業變得流行與常見,媒體(“他們會報導什麼?”)與投資者(“他們會投資什麼?”)在一定程度上也提供了激勵。媒體激勵了部分上述趨勢 。對機器學習演算法的擬人化描述助長了新聞曝光度。

以本篇論文為例[55],它將自動編碼器擬人化為“模擬大腦”。稍有一點人類水平的表現就會被新聞誇大,比如[52]將一個使用深度學習為影像起標題的系統描述為“理解水平近乎人類”。投資者們也非常歡迎人工智慧研究,他們經常僅僅基於一篇論文就決定投資某個初創企業。

根據我們(ZL)與投資者合作的經驗,他們經常被那些研究方向被媒體報導過的初創企業所吸引——金錢激勵與媒體關注度緊緊相連。我們注意到,最近對聊天機器人初創企業的熱潮與學術與媒體上對話系統和強化學習擬人化同時出現。儘管確實很難知道,到底是獎學金的不足引起了投資者的興趣,還是正好相反。

討論

不少人可能會建議,在本領域正火熱發展之時不要進行干預:你不該和成功過不去!我們將這樣回擊這些反對的聲音。首先,上面論述的這些文獻是機器學習最近的成功的結果,而非其原因。

事實上,許多指引深度學習成功之路的文獻都是對訓練深度網路原則進行的非常仔細的實證研究。這其中包括:隨機引數搜尋比序列性引數搜尋更加有優勢[5],不同啟用函式的行為特徵[34, 25],以及對無監督學習預訓練的理解[20]。

第二,存在缺陷的學術研究已經負面影響到了研究界以及更廣泛的社會認知。我們在第三部分內看到了許多例子。未被證實的斷言被引用上千次,所謂變型改進的被簡單基準推翻,看似測試高水平語義推理的資料實際上僅僅測試簡單的語法通順度,還有大量術語的不當使用使學術對話變得令人困惑。最後一個問題還影響研究結果對公眾的釋出。

例如,歐盟議會通過了一項報告,考慮當“機器變得/被製造成具有自我意識”時,進行法規約束[16]。儘管機器學習研究者們無需對所有對其研究的錯誤理解負責,擬人化權威同行稽核的文章確實似乎該負起一部分責任。

我們相信,更嚴肅精確的表達,科學與理論對科學進步與面向大眾的科普都非常關鍵。此外,作為在醫療,法律與無人駕駛等關鍵領域應用機器學習的從業者,對於機器學習系統能力與不足的精準認識將幫助我們負責任地應用機器學習。我們將在文章最後一個部分討論一些反駁觀點並提供一些背景知識。

反面因素的考慮

對於前述建議,我們也考慮了一些反面因素。一些閱讀了本文草稿的讀者指出,隨機梯度下降通常比梯度下降收斂更快——也就是說,無視我們對於撰寫一篇“更乾淨”的文章的建議,可能一個噪音更多但速度更快的過程可以幫助加快研究的程式。

例如ImageNet分類的那篇突破性文章[39]提出了數個方法,並沒有進行消融學習。後來其中一些因素被認定為並非必要。然而,在實驗結果如此重要並且計算成本非常高昂的時候,可能等待排除所有其它因素完全完成就可能不太划算。

另一個相關的顧慮是,高標準可能阻礙原創性觀點的發表。這樣的觀點一般非同尋常並且非常冒險。在其他領域,比如經濟學,高標準導致文章發表週期非常冗長,一篇文章可能會經過數年才能夠正式發表。校對耗時過長,會佔用原本可以花在新研究上的時間與資源。

最後,專業化可能會有所幫助:那些提出新概念與想法或建立新系統的研究者並不需要與那些仔細校勘提煉知識的研究者完全相同。

我們認為這些考慮非常實在,有時上述標準確實過於苛求。然而,在許多情況下他們都能夠被直截了當地實施,僅需要多花幾天在實驗與仔細寫作上。

並且,我們提出這些觀點,不是讓他們成為決不能被違背的守則,而是想啟發大家——如果有些觀點不違背這些標準就無法被分享,那我們更寧願大家暫時無視此標準,分享觀點。此外,我們幾乎總是能發現,試圖遵守這些標準總是非常值得。簡而言之,我們並不相信研究界已經在增長-質量前沿上達到了帕累托最優狀態。

歷史上的先例

本問題並不僅存在於機器學習界,也並不僅存在於現在。他們反映了學術界一直以來週期性反覆出現的問題。1964年,物理學家John R. Platt在其一篇關於強推理的論文[62]中討論了類似的問題。他認為堅持某種用實證標準衡量致使了分子生物學界和高能物理相對於其他科學學科的快速發展。

在人工智慧領域也有類似的討論。正如在第一部分所述,在1976年,Drew McDermott在[53]中從數個方面批評了一個人工智慧社團(基本上就是機器學習的前身),包括定義具有暗示性以及沒有將猜測與技術宣告分離開。在1988年,Paul Cohen與Adele Howe在[13]中強調了一個人工智慧團體。該團體當時“幾乎從不公開對其提出的演算法的表現評估”,而僅僅是描述了一下系統。

他們建議建立一個有意義的量化過程的評估標準,並且建議分析“為什麼它有用?”,“在什麼情況下它會失效?”以及“該設計被證明可靠了麼?”等一類直至今天仍然有用的問題。最後,在2009年,Armstrong及其共同作者們在[2]中討論了資訊查詢研究的實證嚴謹度。

他們發現文章正傾向於將自己的研究結果與同樣糟糕的標準進行對比,得到一系列壓根就不會得到有意義的結果的所謂改進方法。

在其他領域,學術研究成果未經檢查的減少已經引起了危機。2015年的一項著名研究[14]認為,心理學界一大部分發現並不能被重複實驗得到相同結果。歷史上發生過數次這樣的事情,激情與未加約束的學術研究使得整個專業都誤入歧途。例如,在發現X光後,一個研究N光的相關學科突然出現[61],最終被揭穿其虛假的面具。

結束語

讀者們也許會指出:這些問題其實是可以自我糾正的。沒錯,我們認同這一觀點。然而,唯有通過對學術標準的不斷討論,機器學習研究圈才能“自我糾正”這一問題。這也正是本文希望作出的貢獻。

相關文章