自動處理醫療影像一直是人工智慧的重要發展方向之一,吸引了很多知名學者參與其中,並已出現了很多引人注目的成果。近期史丹佛大學吳恩達等人提出的 CheXNet 便是其中之一。研究人員在其論文中表示:新技術已經在識別胸透照片中肺炎等疾病上的準確率上超越了人類專業醫師。然而,另一群學者對目前的一些研究產生了懷疑。本文作者 Luke Oakden-Rayner 是阿德萊德大學的放射科在讀博士,曾作為第一作者於今年 5 月在 Nature 上發表文章介紹了自己利用深度學習等技術預測人類壽命的研究。
如果你關心機器學習和醫學,請閱讀這篇重要而深刻的文章。
——Gary Marcus,紐約大學教授
幾周前,我曾提到自己對於 ChestXray14 資料集有所擔心。我曾說過在自己掌握更多資訊後會深入探討這個問題。在這段時間裡,我深入挖掘了資料結構與內容,並與 Summers 博士(資料集提出者之一)用郵件進行了交流。不幸的是,這些行動只是加劇了我對資料集的擔憂。
免責宣告:我認為本文不能反映深度學習在醫療領域應用的廣泛觀點,或是主張人類表現是無法超越的。本文的觀點基於我對近期研究發展的考量。該結果僅針對 ChestXray14 資料集,代表了我們在面對醫療資料時面臨的挑戰。這一挑戰是可以被戰勝的,在未來的文章中,我會介紹戰勝它們的方法。
讓我們先給出結論,我認為目前的 ChestXray14 資料集不適用於訓練醫用人工智慧系統進行診斷工作。為了清晰證明我的觀點,我將在本文中討論以下幾個問題:
- 標籤的準確度
- 標籤的醫學意義
- 標籤對於影像分析的重要性
本文的大部分篇幅都將用於介紹我的立場,但是首先我們先要談談引入這個資料集的論文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》。我必須指出,自首次釋出以來,該資料集的論文和支援文件已經更新過多次——自我開始談論此事之後至少已經更新過兩次。儘管如此,在通讀了文件後,我仍然認為我的觀點是合適的。
在我看來,該論文需要花更多的時間解釋資料集本身。特別是在該資料集的大量使用者是電腦科學研究人員,缺乏臨床知識的情況下,這種需求就顯得尤為迫切了。然而,這篇論文主要介紹了文字挖掘和計算機視覺任務,其中有一張圖(第八頁)、一個圖表展示了資料集中標籤的準確性。
以下文字挖掘的效能測試結果是在論文發表於 CVPR 之後新增的(這篇論文是 CVPR 2017 的 Spotlight):
這張列表展示了一些有意思的東西,其中展示的原始結果(上半部分)是在公開的 OpenI 資料集上進行測試的,其中不僅包括報告,也有人類打上的完整標籤。例如,如果一份報告說道:「有基底固結」,就會使用標籤「固結/基底」。
而列表中下面的部分是 ChestX-ray14 自己的資料,這個部分自從論文的第一個版本以來一直存在。為了製作測試集,研究人員隨機選擇了 900 份報告,並有兩位註釋者(在這裡我們假設他們都是專業的放射科醫師)進行標註,他們共同分類了其中的 14 種疾病。這裡需要注意的是,這些註釋者並沒有直接檢檢視像(據我所知)。
在列表中,我們可以看到演算法在幾乎所有分類中都有了很好的結果,尤其是在他們自己的資料上。這裡唯一的限制是每個類別的流行程度,很多罕見疾病的流行程度約為 1-3%,在此我們假設在隨機選擇報告時研究人員並沒有刻意挑選樣本——這樣測試集中的很多結果都含有 10-20 個範例。這本來不是問題,但資料體量的限制會讓誤差變大(如果一個類別中的樣例數量為 10-30,只有一個錯誤,那麼 95% 置信區間的陽性預測值會在 75%-88%)。
但如果允許一些偏差值,每個標籤看起來準確度都在 85-99%,至少準確反映了報告結果。
永遠關注影像本身
放射科!高高興興來,然後留下了頸椎病。
不幸的是,似乎標籤無法準確地反映病況。稍後我會介紹一些可能的原因,現在我們先來看我是如何得出該結論的。
其實我也檢視了這些影像,因為我是一名放射科醫生。在看 x 光片方面我不比別的放射科醫生好,也不比他們差,但是我應該比壓根不看這些影像的人要好一些吧。NIH 團隊沒有表明他們看過這些影像,他們透過測試標籤是否匹配報告文字來判斷影像標註過程的優劣。我認為這種分離導致了我所提出的標籤質量問題。
有很多方式可以在不需要影像的情況下構建影像標籤。你可以依賴已經存在的標籤,如 ICD 編碼;你可以從報告或其他免費文字中提取標籤;你還可以使用增補資料(follow-up data)。
但是你必須看這些影像。在計算機視覺領域,這叫做「完整性檢查」(sanity check),是一種簡單的軟體功能測試方式。在深度學習中,我們檢視訓練曲線、檢驗梯度、嘗試在沒有正則化的情況下訓練來測試是否產生過擬合。檢視這些影像是放射學的完整性檢查——檢視影像,確保它們和期望的一樣。
它們不必要完美,如果你在整合一些可能不在影像上的資訊(如增補資料),那麼或許會有一些視覺上看不出來的疾病。這沒什麼問題,但是你仍然需要檢視影像。
確切地記錄如何根據影像資訊定義類別似乎很難,但是你仍然需要檢視影像。一般我們只需要每個類別留出一個小的隨機子集,且每個子集至少需要包括 100 張影像,因此我們就可以對它們隨意地進行評估。這樣花費的時間不會太長,我通常 10 分鐘看完 200 張影像以完成「完整性檢查」的初級階段。
第一部分:ChestXray14 資料集中的影像標籤準確率
這部分要說該資料集中基於標籤的影像。它們是隨機選取包含 18 張影像的序列集,並非精挑細選。
我儘量保持謹慎,當一個案例模稜兩可的時候,我選擇標出標籤類別。在所有影像中,紅色 = 明顯錯誤的標籤;橙色 = 懷疑態度,我沒有指出這個問題,但是不能排除這種懷疑。(出於臨床診斷的習慣 :p)
肺不張(Atelectasis)
心臟擴大(Cardiomegaly)
纖維化(Fibrosis)
我的標籤並不完美,其他放射科醫生可能對其中的一些標籤有疑惑。但是必須明確一點,我的標籤和論文/附錄中的結果有極大的不同。
我通常喜歡硬資料,因此我盡力量化標籤準確率。事實上我發現其中的很多標籤都很難定義,因此下表中未列出。我檢視了每個類別中的 130 多張影像,根據我的視覺判斷計算原始標籤的準確率。這個資料量比較適合使用,因為 95% 的置信區間可能再擴大 5% 左右,所以我的誤差率可能達到 20% 左右。
我的視覺分析 vs. 論文中的文字挖掘結果
我再次懷疑我的標籤到底對不對,尤其是和一隊胸部放射科醫生的判斷結果相比,但是如上表所示,差別也太大了。我認為上表中的資料證明這些標籤無法匹配影像中顯示的疾病。
也有辦法解釋這種現象。比如最初幫助解釋影像的放射科醫生具備影像以外的資訊。他們具備臨床經驗、之前的診療結果等。這些資訊非常有用,尤其是在區分類似疾病的時候。
由於未獲取報告,我無法評價他們在實驗中的作用。但是從個人臨床經驗出發,我知道這些額外資訊大概能提供 10% 的影響,即使它們很少能夠顯示明確的診斷結果,但它們對醫生的診斷確實有幫助。
如果人類專家無法僅從影像中做出診斷,那麼 AI 系統很可能也無法診斷。AI 可能能夠找出一些人類忽略的細微證據,但是憑藉這些就可以產生效能上的巨大差異並不合理。總體來看,我們需要標籤和影像包含同樣的資訊。
如果 Wang et al. 的團隊宣告因為不可獲取的資料,他們的標籤比我的視覺判斷好,且差距懸殊,那麼我至少想看到論文中出現一些討論來解釋這個過程,特別是在報告沒有公佈的情況下。
第二部分:這些標註在醫學上意味著什麼?
這引出了第二個問題,且我在前面部分也討論了這個問題。這些標註實際上代表什麼?它們能夠反映臨床實踐嗎?
我認為答案是否定的。
最難解析的標籤是固結/滲透/肺不張/肺炎集聚等。這裡不做詳細的討論,但並不表明它們仍然困擾著我。儘管我們花大量時間檢視這些影像,但我並不能更明確地區分這些不同的類別。
這些醫學影像還存在其它問題,與任務的臨床價值有關:
滲出
在該案例中,藍色的標籤表示它們存在顯著性的肺部疾病。
滲出(effusion)表示在肺部周圍空間有積液。造成該病變的原因非常多,但主要原因分為由胸膜和肺部疾病引起的積液。
我並不清楚什麼確定或代表了顯著性肺部疾病中有積液存在。在很多情況下,甚至直觀地識別這些積液都是不可能的,只不過我們知道積液會存在,所以我們也就這樣描述它了。上圖最後三個肺部影像就是一個非常好的例子,在我看來,這些病例的主要病理還是固結(consolidation)。
我可以看到識別較小和分離的胸腔積液的價值。上圖中約有 6 張影像是這樣的情況,包括第一張和第三張。沒有肺部疾病來表明積液的成因,這令標籤「積液」越發突兀。
我還可以看到識別較大積液的好處,它們可能需要我們的介入進行治療,如使用器械將它們排出。第 10 張圖就正好是這樣的案例。所以其實我並不太瞭解標籤的含義,因為不是基於臨床實踐的指導思想並不是很有用。
氣胸
氣胸是指在肺部周圍的胸膜腔空間有氣體。這可能導致肺部癱瘓,因此它是非常嚴重的病變。但實際上,氣胸在 X 光影像上非常微小,經常會被人忽略掉。
初次看來,標籤似乎非常有效。在這 18 個樣本中,只有用橙色標出的那張影像有點問題,這也可能是因為我沒在診斷環境下檢視肺部影像的原因。
但是綠框也有點問題,因為這些病人已經使用胸腔引流治療過氣胸。因此,現在有以下兩個問題:
- 這並不是醫學上重要的問題,我們希望避免氣胸未被診斷出的錯誤,而這些影像標籤確實沒有犯這種錯誤。
- 如果很多影像都透過胸腔引流治療,AI 系統將會學習識別胸腔引流而不是氣胸。模型訓練時的大多數影像樣本批次完全可能包含有胸腔引流的氣胸。
纖維化
我們已經看到,纖維化的標註準確率非常低。在這些影像中,紅框是不正確的標籤,橙框是我不確定的標籤。在胸腔積液和固結中可能也會出現纖維化,但這些是影像無法告訴我們的。
實際上還有多種其它非影像臨床問題,例如:
- 肺炎、肺氣腫和大多數纖維化都是臨床診斷問題而不是醫療影像問題。
- X 射線會漏掉多達 50% 的囊腫,因此我們可能會懷疑報告所採用的囊腫標註。
- 沒有人關心間斷性疝氣,所以它們只是有時候進行診斷。
實際上,每個標籤的類別都會受到不同程度的質疑,只不過我強調的是最值得質疑的部分。它們足以說明,找到那些優秀的資料集或正確的標籤以學習高效的醫療任務是十分困難的。同樣,我們還是需要專家檢視這些影像來進行醫療診斷。
第三部分:這些影像對影像分析有什麼好處?
這是本評論最重要的部分。放射學的深度學習應用有一個大問題,如果不檢視影像,後果將非常嚴重。
如果這些標籤很不準確,並且標籤的意義也不可靠,那麼建立在這個資料集上的模型是如何能達到不錯的結果的呢(正如論文中所報告的)?模型實際上學習的到底是什麼?
前一陣子有一篇很流行的論文(Understanding deep learning requires rethinking generalization,Zhang et al.)表明了深度學習無法在訓練資料中擬合隨機標籤。我不認為這個結論對研究深度學習模型的人來說是意料之外的,但很多人以此作為反對深度學習的證據。
實際上,我們在尋找可以學習正確地在測試集上輸出真實結果的模型,即使所謂的真實結果在視覺上毫無意義。
來自 CheXNet 的結果:使用深度學習模型(Rajpurkar and Irvin et al.)在胸透圖上進行放射專家級的肺炎檢測,在測試集上獲得了不錯的效能。
現在,一些深度學習擁護者會爭辯說,適當的標籤噪聲是可以接受的,甚至還有好處。
我基本同意 Jeremy 的觀點,雖然這依賴於任務型別和噪聲型別。隨機噪聲可以作為不錯的正則化項,甚至還可以在某些設定中提升效能(這種技術被稱為標籤平滑或軟標籤)。結構化噪聲不一樣,它新增了完全不同的訊號,而模型將嘗試學習這些訊號。這等價於訓練一個模型學習識別肺炎,但其中 10% 的肺炎標籤還包括狗的相關標籤。
在一個包含壞標籤的訓練集中,神經網路將把這些標籤看成同等有效的肺炎樣本。如果模型學習了這些標籤,例如,「毛茸茸」是肺炎的一個訊號,然後模型將應用這個訊號到胸透圖中,輸出無法預測的結果。
模型將使用部分從狗類影像中學習的特徵,並應用到胸透圖中,儘管這和問題本身無關。
如果你的目標是最大化效能,那麼結構化噪聲總會帶來負面影響。噪聲甚至不需要很明顯(其中的關係是非線性的),而偏差標籤將降低模型的準確率。
Rolnich 等人《Deep learning is robust to massive label noise》的結果表明,結構化噪聲破壞了標籤,並使得效能下降。當噪聲與實際資料來源相同時,這個問題可能更麻煩,因為模型會混淆噪聲與類別。這可以類推到 ChestXray14 資料集中,它們的標籤同樣遭到了破壞。
所以從直觀來看,這些標籤會損害模型的效能。那麼為什麼在 ChestXray14 上訓練的模型有非常好的效能?難道是這些模型可以補償資料噪聲而變得魯棒性嗎?
我並不這樣認為,實際上我們需要關注更多的方面。其實在為資料集構建一組新標籤的過程中,我透過建立一個「opacity」類和一個「no finding」類來簡化涉及的任務。我用原來的標籤設定了新建立的標籤,「opacity」是肺不張、肺炎、固結和滲透標籤的組合,然後我們在上面訓練一個模型。
正如前面所說的,一個優秀的模型將完成這些探索性工作,所以我只需要採用一個在 ImageNet 預訓練的 ResNet,並在新的資料集中訓練後部分的網路。我並沒有調整超引數,只是在一個合理的時長內訓練模型,最後模型的效能還是比較優秀的。
AUC = 0.7
該模型的表現非常像 Summers 等人的研究,我的模型可以明確地從這些標籤中學到一些知識,但模型具體學到了些什麼?
以下是模型的預測以及它們與資料集中的標註所做的比較:
真正類
綠色是真正類,其它的是錯誤的標籤。
真負類
前 18 張有 1 到 2 個有爭議,後面 18 張中紅框都是錯誤的。
假正類
紅色的都是錯的,資料集中也出現了旋轉和扭曲等異常情況(用紅色問號標記)。
假負類
紅色部分為嚴重錯誤標註。
儘管 AUC 是 0.7,但與標籤錯誤率一致,我們的分類效能非常糟糕。該模型無法忽略錯誤的標籤,輸出合理的預測,它對標籤噪聲不具備魯棒性。最重要的是,AUC 值沒有反映診斷效能,這是一個很大的問題。
這一 AI 系統學習可靠地輸出無意義的預測。它學習影像特徵的方式使「opacity」的案例變得幾乎沒有模糊性,而「no opacity」的案例被判斷為嚴重不正常的肺。
這就是問題,因為除非你看了影像,不然就會以為結果很棒。每個團隊的模型效能都越來越好,AUC 分越來越高,看起來它們似乎正在「解決」一項嚴肅的醫療任務。
我認為其有多個原因;醫療影像很大又複雜,共享很多普遍元素。但是,自動挖掘標籤的方法沒有引入不準確的隨機噪聲。文字挖掘的程式設計本質會導致持續、意料之外的資料依賴或分層。這讓我回想起美軍開發神經網路用來識別二十世紀五六十年代坦克偽裝的故事。
大約半個世紀前我在洛杉磯參加一個會議,有人發表了一篇論文,展示了一個隨機網路如何被訓練來檢測影像中的的坦克。當時我在觀眾中,演講結束後,我站了起來並表示,很明顯帶有坦克的照片是在晴天製作的,而另一張照片(沒有坦克的同一片場地)是在陰天製作的。我認為「神經網路」只是訓練自己去識別明亮影像和暗淡影像之間的區別。
——Edward Fredkin 與 Eliezer Yudkowsky 的通訊
同樣,史丹佛大學皮膚科的 Novoa 博士最近也在媒體上討論過這個問題:
當皮膚科醫生檢視一種可能是腫瘤的病變時,他們會藉助一個尺子——就是你在小學時用的那種——來準確測量它的大小。皮膚科醫生這樣做是為了檢視病灶。因此,在一組活檢影像中,如果影像中有尺子,演算法更可能將其判斷為惡性腫瘤,因為尺子的存在與病症癌變的可能性相關。不幸的是,Novoa 強調,該演算法不知道為什麼這種相關性是有道理的,所以很容易誤解為一個隨機的尺子是診斷癌症的根據。
這裡的關鍵資訊是深度學習非常非常強大。如果你給它輸入帶有偏見標籤的複雜影像,它可以學習對這些類別進行分類,儘管它們毫無意義。它可以學習「pneumonia-dogs」。
這與 Zhang et al. 的論文結果不同。
他們表明,你可以完美擬合訓練集中的隨機標籤。實際上,這一結果僅僅表明深層網路足夠強大,能夠記憶訓練資料。他們沒有展示測試資料的泛化,相反,他們展示了噪音損害的效能。我確實在 ChestXray14 資料中透過隨機標籤做了一個快速測試(另一個完整性檢查),發現與 Zhang et al. 的相同結果;並且該模型沒有泛化到測試集。
這裡的根本問題不同於 Rolnich et al. 和 Zhang et al.,因為結構化噪聲不僅存在於訓練資料中。整個測試資料中的標籤誤差也是一致的。這意味著如果模型學習做出不良的醫療預測,那也許它可能會獲得更佳的測試表現。
這種情況可能僅針對透過自動「資料探勘」方法生成的標籤,但是我也發現了人工標籤導致放射科資料分層的多種方式。
我想簡單地補充一下這最後一點,因為對於任何使用醫學影像資料的人來說,這是一個非常重要的問題。放射學報告不是客觀的、事實上的影像描述。放射學報告的目的是為他們的推薦人(通常是另一位醫生)提供有用的、可操作的資訊。在某些方面,放射科醫師猜測推薦人想要的是什麼資訊,並且剔除那些不相關資訊。
當解釋胸部 X 光片時,想象一下臨床醫師面臨的最大恐懼是什麼,& 如果它不在,就說它不在,比如「沒有活性 TB 的證據」。
—2017 年 12 月 15 日,Saurabh Jha (@RogueRad)
這意味著根據臨床情況、過往歷史和推薦人(通常根據個人推薦人的偏好量身定製)以及放射科醫師是誰,相同影像的兩份報告可以被貼上不同的「標籤」。一個極其異常的研究往往被報導為「沒有明顯變化」。向專家提供的報告可能會描述一個嚴重疾病的典型發現,但從不提及該疾病的名稱,因此不會強迫專家採取特定的治療對策。給全科醫生的報告可能會列出若干種可能的疾病,包括治療策略。影響每一張放射學報告的因素有很多,所有因素都會給放射學報告帶來結構性噪音。每個小案例都可能有獨特的可學習的影像特徵。
我已指出一個可能的影像偏差。氣胸組中的模型可能正在尋找胸腔引流管。事實上幾乎每個帶有大口徑胸腔引流管的患者都有氣胸,但這並不意味著氣胸是可見的或重要的。
還有很多其他視覺元素可將患者分成幾組,包括影像質量(根據患者是門診病人、住院病人、重症監護等而不同)、匯入裝置如起搏器或心電圖導聯的存在、身體習性等等。這些因素都不是「診斷性的」,但它們很可能與標籤有不同程度的相關性,深層網路要找的很可能就是這樣的東西。
醫學研究人員長期以來一直在處理臨床資料的分層管理。這就是為什麼他們花費如此之多時間來描述其資料集的人口統計性特徵,像年齡、性別、收入、飲食、運動等許多其他事情都會導致「隱藏」分層。我們在基本層面上也應該如此。檢查你的訓練和測試資料中的人口統計學特徵是大致相似的,但這還不夠,我們還需要粗略地知道整個群組的視覺外觀分佈是相似的,這意味著你需要檢視影像。
不要誤解我的意思,這些問題並不意味著深度學習應用於醫學影像是毫無價值的。深度學習最重要的一點是它奏效。雖然我們現在還不明白為什麼,但是如果你給到深層網路很好的標籤和足夠的資料,它將優先為這些類別學習有用的特徵,而不是無意義的瑣碎特徵。
事實上在瀏覽我正在構建的標籤時,我將在下一篇文章中展示深層網路確實能從這些影像中學習胸部 X 射線的相關有用資訊。
TL:DR
與人類視覺評估相比,ChestXray14 資料集中的標籤不準確、不清楚,並且經常描述醫學上的次要發現。
這些標籤問題在資料之中是「內部一致的」,這意味著模型可以展示「良好的測試集效能」,同時仍然產生不具有醫學意義的預測。
以上問題表明目前定義的資料集不適合訓練醫療系統,對資料集的研究不能在沒有附加正當理由的情況下生成有效的醫療宣告。
檢視影像是影像分析的基本的「完整性檢查」。如果你構建資料集時,沒有能夠理解你的資料的人在檢視影像,那麼期望資料集奏效將非常錯誤。
醫學影像資料充滿分層元素;有用的特徵幾乎可以學到任何東西。檢視你的模型是否每一步都照常執行。
我會在下篇文章中釋出一些新標籤,並表明只要標籤足夠好,深度學習就可以在這個資料集中工作。
附錄 1:來自 ChestXray14 team
由於我與該團隊合作過,該資料集文件已經被更新過多次。他們在論文中並沒有關於該資料集的更多討論,因此他們將這一部分放在了資料集 FAQ 裡:
問題 08:對影像標籤準確率的普遍擔憂。
回答:關於已釋出的影像標籤,我們有幾件事情需要闡明:
同樣的診斷可能會使用不同的術語和習語:這些影像標籤是使用 NLP 技術從放射醫學報告中挖掘出來的。那些疾病關鍵詞完全是從報告中提取出來的。放射專家通常使用他們自己偏好的(關於每個特定的疾病模式或多種模式的)術語和習語描述診斷結果,其中在描述中使用所有可能的術語的可能性是很小的。
應該使用哪個術語:我們明白,僅僅基於影像的診斷分辨確定的病理學症狀是很困難的。然而,也可能存在多種其它來源的資訊可用於放射學診斷(例如,檢查原因、病人病歷和其它臨床資料)。報告中使用的診斷術語(例如肺炎)是基於所有可用資訊而決定的,而不僅僅是影像診斷。
使用 NLP 提取實體是不完美的:我們嘗試透過消除疾病說明中的所有可能的否定詞和不確定案例以最大程度地發現準確疾病診斷的召回率。諸如『很難排除...』的術語會被當成不確定案例,然後對應的影像會加上「No finding」的標籤。
「No finding」和「normal」是不一樣的。被標記「No finding」的影像可能包含除列出的 14 種疾病模式之外的模式,或者在 14 種疾病模式之內的不確定診斷。
我們鼓勵其他人分享他們自己的標籤,最好是來自一群放射專家的資料,從而還可以獲得觀察者可變性的資訊。我們已釋出的影像標籤僅僅是鼓勵其他研究者關注在大型資料集上『自動地解讀胸透圖』的第一步,這些標籤還需要社群的幫助以提升質量。
我真的很感謝作者們將這些對我的問題的回答放進他們的文件中。我是在收到這些回答之後才開始寫這篇文章的,我並不認為他們充分地解決了我的擔憂。
附錄 2:Re:CheXNet
CheXNet(Rajpurkar and Irvin et al.)是吳恩達和他在史丹佛大學的團隊建立在 ChestX-ray14 資料集之上的研究,因聲稱該模型在胸透檢測肺炎的表現「超過放射科專家」而受到社交媒體的廣泛關注。如下圖所示,吳恩達本人表示:
相關連結:https://stanfordmlgroup.github.io/projects/chexnet/
這篇論文稍微超出了本篇討論的範圍,因為和使用 ChextXray14 一樣,他們需要人類醫生對測試集之一(即他們聲稱和人類作比較的資料集)進行視覺化檢查並標記影像。這種策略大概可以解決上述我列舉的大部分問題。
我尚不確定如何把他們的結果整合到我的分析中,因為它們在原始標籤和人類標籤上都表現很好。我相信他們是獨立地訓練模型分別進行兩個測試的(即在兩個資料集上得出好成績的並不是同一個模型)。
我最近正與該團隊聯絡,未來將與他們進一步討論該論文。