近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

dicksonjyl560101發表於2020-08-21

來源:AI科技評論

本文約 5400字,建議閱讀 6分鐘。

論文調查告訴你評估機器學習模型中的不足。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

“用於評估AI和機器學習模型的常用指標不足以反映這些模型的真實效能”,來自維也納醫科大學人工智慧與決策支援研究所的研究人員透過調查3,867篇AI論文,得出了這個結論。

基準測試是AI研究進展的重要推動力。任務和與之相關的度量可以被視為科學界旨在解決的問題的抽象。基準資料集被概念化為模型要解決的固定代表樣本。

這些論文來自基於開放原始碼的Papers with Code平臺(PWC)。儘管科學家們已經建立了涵蓋機器翻譯、目標檢測或問答等一系列任務的基準,但維也納醫科大學的研究者表示, 有些指標例如準確率,會強調模型表現的某些方面,而忽視其他方面。

這些論文的基準測試中很少使用其他更合適的指標,僅使用那些常用的有問題的指標。例如準確率、BLEU分數等指標的使用頻率高的驚人,而它們都存在評估片面性缺陷,而那些被證明更有用的指標,例如MCC、FM等,基本沒有出現在分析的論文中。

並且這些論文對指標的描述經常出現不一致且不明確的地方,導致對結果的優越性判斷模稜兩可,尤其是指標名稱可能被過度簡化,例如把不同的AUC統一表述為AUC。

Papers with Code最近20年論文調查

研究人員調查了2000年至2020年6月之間發表的3,867篇論文中2,298份資料集中的32,209個基準結果。從統計資料中,我們也可以大致瞭解AI二十年來的發展概況。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

表1:分析資料集的統計概況(表中3,883應為失誤,編者注)

值得一提的是,對Papers with Code的論文調查也反映出,自2012年來,AI論文數量呈指數增長趨勢。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖1:Papers with Code每年發表論文數量,y軸對數縮放

在這些論文中,研究物件集中於影像、語言和一些更基礎的流程(包括遷移和元學習等)。圖2顯示了每個AI子流程的基準資料集數量。 其中,“視覺流程”、“自然語言處理”和“基礎AI流程”是關聯基準資料集數量最多的三個子流程。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖2:每個AI子流程的基準資料集數量,x軸按對數比例縮放

在這些論文中,總共使用了187個不同的top-level(最常用)指標。圖3展示了選定的指標的層次結構。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖3:指標層次結構。圖左顯示了top-level指標列表部分;圖右顯示了“準確率”的子指標列表部分

到目前為止,分類指標是關聯基準資料集數量最多的型別。在下圖中,top-level指標根據其通常應用於的任務型別進行分類,例如 “準確率”被歸類為”分類”,“均方誤差”被歸類為“迴歸”,“BLEU”被歸類為“自然語言處理”。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖4:每種top-level指標的數量(藍色條)以及使用至少一個相應top-level指標的不同基準資料集的數量(灰色條),x軸按對數比例縮放

最常用的指標近乎過度使用

在這187個指標中,最常用的指標是準確率(accuracy), 佔基準資料集的38%。 第二和第三最常報告的指標是F分數(F-score,精度和召回率的加權平均值),以及精度(precision)。如果考慮子指標,F1分數是最常用的F分數。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖5

在分類指標中,最常用的指標也是準確率、F分數和精度。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖6

令人驚訝的是, 有三分之二(77.2%)的已分析基準資料集,僅報告了一個top-level指標。14.4%的基準資料集具有兩個top-level指標,6%的基準資料集具有三個top-level指標

每個基準資料集的不同top-level指標的最小和最大數量分別為1和6,不同top-level指標的中位數為1。

報告了準確率的基準資料集的83.1%,沒有報告其他top-level指標。報告了F分數的基準資料集的60.9%,沒有報告其他top-level指標。

考慮子指標時,統計資訊會略有變化。 僅報告單個top-level指標的基準資料集的比例下降到70.4%,而使用兩個或多個top-level指標的基準資料集的比例則略有增加。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖7:僅將top-level指標視為不同指標(藍色條)時,以及將子指標視為不同指標(灰色條)時,不同指標數的基準資料集的計數

自然語言處理(NLP)是一個非常廣泛的領域,涵蓋了廣泛的不同任務,因此用於基準資料集效能比較的指標顯示出很大的多樣性。

命名實體識別和詞性標記通常被視為分類任務,使用的也是分類任務的相關指標。需要不同評估指標的其他更復雜的任務包括機器翻譯、問答和摘要。 針對這些任務設計的指標通常旨在評估機器生成的文字與人為生成的參考文字之間的相似性。

在自然語言處理的論文中,三個最常報告的指標是BLEU得分、ROUGE指標和METEOR。與BLEU和ROUGE相比,METEOR在NLP基準資料集中很少用作效能指標(13次)。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖8

BLEU分數用於各種NLP基準測試任務,例如機器翻譯、問答、摘要和文字生成。ROUGE指標主要用於文字生成、影片說明和摘要任務,而METEOR主要用於影像和影片說明、文字生成和問答任務。

IBM在2001年提出了BLEU分數,作為機器翻譯任務的指標。它基於n-gram精度(即,匹配的n-gram與所生成的n-gram總數的比例),並應用所謂的“簡潔懲罰”,使翻譯文字長度相比參考譯文不會太短。

雖然由於其n-gram的幾何平均,最初的BLEU分數不能用於句子級別的比較,但後來人們提出了一種用於句子級別比較的稱為“Smoothed BLEU”(BLEUS)的變體來解決此問題。

研究人員指出, 在80.2%的論文中,僅使用了BLEU分數,而ROUGE指標更常與其他指標一起使用,在24篇論文中只有9篇單獨使用ROUGE。METEOR至少和一項其他指標一起使用

某些指標被過度簡化

研究人員指出, 在所確定的指標報告中存在不合規使用行為,主要是過度簡化指標名稱。例如將“曲線下面積”過度簡化為“ AUC”。 曲線下面積是對準確率的一種度量,可以根據是精度和召回率(recall)的AUC(PR-AUC),還是召回率和假陽性率的AUC(ROC-AUC)以不同的方式進行解釋。

同樣,有幾篇論文提到了自然語言處理基準ROUGE,但未指定使用的是哪種變體,例如ROUGE-1、ROUGE-L,通常只簡化成“ROUGE”。

如果考慮子指標,ROUGE-1、ROUGE-2和ROUGE-L是最常用的ROUGE變體,而BLEU-4和BLEU-1是最常用的BLEU變體。但是對於大部分BLEU和ROUGE指標的註釋,都未指定子變數。

研究人員認為,ROUGE具有精度和召回率相關的子變數,儘管召回率子變數更為常見,但是在比較論文之間的結果時可能會導致模稜兩可。

其他效能指標也存在類似的不一致和歧義,例如分數的加權或宏觀和微觀平均值,可能缺少標準化定義。 在某些情況下,無法從原始論文中確定用於報告結果的指標。

最常用的指標存在缺陷

研究人員說,被調查論文中使用的許多指標都是有問題的。 準確率通常用於評估二分類器和多分類器模型, 但是當處理不平衡的資料集時,即每個類的例項數量存在很大差異時,準確率無法提供有用的結果

如果分類器在所有情況下都預測出多數類別,則準確率等於全部類別中多數類別的比例。例如,如果給定的“類別A”佔所有例項的95%,則始終預測“類別A”的分類器的準確率將為95%。

精度(預測為正的樣本中真正樣本的比例)和召回率(樣本中的正例被預測正確的比例)也有侷限性,兩者都忽略了模型準確預測負樣本的能力。至於F分數,有時精度相比召回率有更大的權重,為偏向於預測多數類的分類器提供了誤導性的結果。 除此之外,它們只能用於一個類別。

所以後來,人們提出了這些指標的變體以用於多類別分類,有多種形式,例如不同指標各自的“微觀”和“宏觀”平均值。

但是對於多類別分類任務,F1分數的定義還是存在不一致之處。Opitz和Burst(2019)發現當前使用兩個不同的公式來計算宏觀F1分數,僅在極少數情況下才會產生相等結果。

這些有缺陷的指標不僅使用的頻繁,還經常一起使用,至於它們之間是否有互補的關係,研究人員並沒有提到。圖9展示了10個最常用的top-level分類指標的共現矩陣。準確率通常與F分數一起出現。此外,F分數、精度和召回率經常一起出現。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖9:10個最常用的top-level分類指標的共現矩陣

此外,這些分數的幾個特定於任務的擴充套件已被概念化。 例如,弛化F1分數也考慮了不精確的匹配,並且在自然語言處理任務(例如命名實體識別)中有應用。其他NLP指標可以看作是精度和召回率的特殊變體,包括BLEU、NIST、ROUGE和METEOR。與簡單分類相比,由於語言增加了複雜性,因此將分別進行討論。

在自然語言處理領域,研究人員強調了諸如BLEU和ROUGE等基準測試的問題。 BLEU僅關注n-gram精度而不會考慮召回率,並且依賴n-gram的精確匹配。

研究人員還討論了BLEU和NIST的屬性,NIST是BLEU分數的一種變體,它賦予較稀有的n-gram更大的權重, 這兩個度量均未顯示與人類對機器翻譯質量的判斷必然高度相關。

雖然最初人們建議將ROUGE用於摘要任務,但ROUGE指標的子集(即ROUGE-L、ROUGE-W和ROUGE-S)也已顯示在機器翻譯評估任務中表現良好。

但是, ROUGE沒有充分涵蓋依賴大量文字釋義的任務,例如文字摘要和多發言者的摘錄(例如會議記錄)。

近年來,人們提出了幾種新的變體,它們有的利用詞嵌入(ROUGE-WE),有的基於圖的方法(ROUGE-G),或具有附加詞彙特徵的擴充套件(ROUGE 2.0)。研究人員發現,ROUGE-1、ROUGE-2和ROUGE-L是用作指標的最常見ROUGE子指標。

同樣,這些有缺陷的指標不僅使用的頻繁,還經常一起使用。圖10展示了10個最常用的NLP指標的共現矩陣。BLEU最常與ROUGE、METEOR一起使用,反之亦然。

近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

圖10:10個最常用的NLP指標的共現矩陣

由於當前使用的評估指標存在各種缺點,因此針對語言生成任務的指標開發是一個開放的研究問題。 甚至在一年一度的機器翻譯會議上,指標評估也作為一項獨立任務被引入。

實際上,大多數NLP指標最初是針對非常特定的應用而概念化的,例如用於機器翻譯的BLEU和METEOR,或用於評估機器生成的文字摘要的ROUGE。

但在之後就被引入其他幾個NLP任務作為指標,例如問答。有研究表明這些指標不能任意遷移到其他任務。人們比較了幾種指標(例如ROUGE-L、METEOR、BERTScore、BLEU-1、BLEU-4、條件BERTScore等),基於三個問答資料集評估生成性問答任務。他們建議在這些評估的指標中,最好使用METEOR,並指出,最初引入的用於評估機器翻譯和摘要的指標在評估問答任務中不一定有很好的表現。

最後,許多NLP指標使用非常特定的特徵集,例如特定的詞嵌入或語言元素,這可能會使可比性和可復現性複雜化。為了解決可複製性的問題,人們已經針對某些指標釋出了參考開源實現,例如ROUGE。

好的指標被忽視

研究人員發現, 在他們分析的任何論文中都沒有使用更好的度量,例如Matthews相關係數(MCC)和Fowlkes-Mallows指數(FM),這些度量標準解決了準確率和F分數的一些缺點。 實際上,83.1%的基準資料集僅報告了準確率指標,但沒有報告其他任何top-level指標,並且F分數是60.9%的資料集中使用的唯一指標。

在研究不平衡資料集時,一些研究人員認為MCC是最有用的指標之一。有人對比過六個不同模擬場景下的MCC、F1分數和準確率,他們得出的結論是, MCC在所有情況下都能始終如一地提供資訊性響應,無論資料集是否平衡。儘管MCC具有良好的效能,但研究人員發現,在分析的論文中人們未將其用作任何基準資料集中的指標。

Fowlkes–Mallows指數(FM)定義為精度和召回率的幾何平均值。 由於FM考慮並平衡了分類器在正類和負類上的準確率,因此,當處理不平衡資料集時,人們建議將FM作為替代指標。 同樣,在分析的論文中人們未將其用作任何基準資料集中的指標。

在分析的所有論文中,METEOR僅使用了13次,而這個指標被證明與人類跨任務判斷高度相關。GLEU僅出現了3次,該指標旨在評估生成文字與“正常”語言用法的符合程度。 這與其他常用指標不同,後者通常側重於生成的文字反映參考文字的程度。

NLP研究社群已經提出了其他NLP指標,但在分析的論文中未作為效能指標,包括TER、TER-Plus、LEPOR、Sentence Mover的相似度和BERTScore。

BERTScore在2019年被提議為與任務無關的效能指標。它基於token的上下文嵌入之間的餘弦相似度之和計算兩個句子的相似度(BERT)。BERTScore在機器翻譯和影像說明任務中表現優於已有指標,例如BLEU、METEOR和ROUGE-L。當將其應用於對抗性釋義檢測任務時,它也比其他指標更強大。但是,BERT作者還指出,BERTScore的配置應適合任務特定的需求,因為沒有單一的配置能夠始終跨任務勝過所有其他配置。

在這些論文中未出現的其他分類指標包括平衡準確率(balanced accuracy)、宏觀平均算術(MAvA)、Cohen的κ係數、Cramér的V和K度量。

追捧最新技術是一種壞習慣

本文介紹的結果基於可從PWC資料庫獲得的大量機器學習論文,PWC資料庫是當前最大的可用註釋資料庫。該資料庫既包含在arXiv上發表的論文的預印本,又包括在同行評審期刊上發表的論文。研究人員承認,分析預印本可能會歪曲研究結果。

儘管可以說arXiv預印本不能代表科學期刊文章,但有研究表明77%的arXiv預印本隨後會在同行評審期刊發表。

在分析中,研究人員重點關注分類指標,以及用於評估NLP任務的效能指標。研究人員沒有討論用於點估計任務的效能指標。在分析的論文中,很少出現迴歸任務的指標,例如均方誤差(MSE)、平均絕對誤差(MAE)、均方根偏差(RMSD)和R²,只有5%的基準資料集使用。 最後,研究人員沒有討論使用包括適當評分規則的機率來衡量偏差的分類指標。

也就是說,目前的比較評估研究基本僅考慮一小部分指標,並專注於特定的NLP任務,跨多個任務的大型比較研究尚未完成。

但是,研究人員仍然相信,當前用於評估AI基準測試任務的大多數指標存在問題,它們可能導致分類器效能結果無法充分反映某些有用屬性,尤其是在評估不平衡資料集時。雖然人們已經提出了替代指標,但目前在基準測試任務中很少使用,僅使用那些常用的有問題的指標。 由於語言和特定任務的複雜性,NLP任務給指標設計帶來了額外的挑戰。

越來越多的學者呼籲將重點放在AI的科學進步上,而不是在基準上取得更好的效能。在今年6月的一次採訪中,Google Brain團隊研究員Denny Britz表示,他認為追捧最新技術是一種壞習慣,因為存在太多令人困惑的指標,並且它們通常更有利於大型、資金充足的實驗室,例如 DeepMind和OpenAI。

卡內基梅隆大學助理教授Zachary Lipton和加利福尼亞大學伯克利分校統計系成員Jacob Steinhardt在最近提出,AI研究人員需要將更多的精力投入研究效能差的方法的原理和原因,並在研究過程中進行更多的錯誤分析、消融研究和魯棒性檢查。

參考連結:

編輯:黃繼彥

校對:楊學俊

—完—






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2713569/,如需轉載,請註明出處,否則將追究法律責任。

相關文章