突破傳統:AI如何應對心電圖中的長尾挑戰?

机器之心發表於2024-09-08
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


近日,上海交通大學、上海人工智慧實驗室和上海交通大學附屬瑞金醫院聯合團隊釋出基於異常檢測預訓練的心電長尾診斷模型。

圖片

  • 論文連結:http://arxiv.org/abs/2408.17154
  • 論文標題:Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis

研究背景

隨著醫療技術的不斷進步,使用無創手段來準確診斷心臟疾病變得尤為重要。在這些手段中,心電圖(ECG)因其低成本和廣泛使用的特點,被認為是診斷心臟健康的關鍵工具。然而,分析 ECG 資料面臨著一個重大挑戰:資料的長尾分佈。這意味著大部分 AI 技術雖然能有效檢測常見的心臟病,但對於稀有或非典型的異常往往難以察覺。這些未被識別的異常(如室上性心動過速、室顫和高階房室傳導阻滯)可能是心源性休克和猝死等致命事件的前兆。因此,開發能夠處理這些罕見異常的 AI 模型至關重要。

為了應對這些挑戰,上海交通大學、上海人工智慧實驗室和上海交通大學附屬瑞金醫院的研究團隊提出了首個基於異常檢測預訓練的心電長尾診斷模型,並在以下三個方面做出了顯著貢獻:

  1. 創新性方法:該研究首次將自監督異常檢測引入為預訓練方式,模擬專業醫生的診斷流程,成功開發出具有長尾診斷能力的心電 AI 模型,大幅提升了對常見及稀有心臟疾病的診斷準確性。
  2. 嚴謹的資料驗證:研究團隊在一個大規模的臨床 ECG 記錄資料集上對模型進行了嚴格驗證。該資料集包含了 2012 年至 2021 年期間在上海真實醫院環境中收集的超過一百萬份 ECG 樣本,涵蓋了 116 種不同的 ECG 型別。經過異常檢測預訓練的模型在 ECG 診斷及異常檢測 / 定位的內部和外部評估中均展現了顯著的整體準確性提升。尤其是在處理稀有 ECG 型別時,該模型實現了 94.7% 的 AUROC、92.2% 的靈敏度和 92.5% 的特異性,明顯優於傳統方法,並顯著縮小了與常見 ECG 型別診斷效能之間的差距。
  3. 前瞻性臨床驗證:在前瞻性驗證中,採用該模型輔助診斷的心臟病醫生相比於單獨工作的醫生,診斷準確率提高了 6.7%,診斷完整性提升了 11.8%,診斷時間減少了 32%。這些結果表明,將異常檢測預訓練整合到 ECG 分析中,具有極大的潛力來解決臨床診斷中長尾資料分佈的挑戰。

接下來將從資料、方法與實驗結果三個方面介紹原文細節。

資料介紹

本研究使用了一個涵蓋從 2012 年至 2021 年期間上海真實醫院資料的大規模心電圖(ECG)資料集,總共包含 1089367 個樣本。每個樣本不僅包括心電圖訊號影像,還包含一個詳細的診斷摘要,記錄了特定的異常情況。資料集中涵蓋了從常見到罕見的 116 種心電異常型別。例如,房室傳導阻滯是一種較常見的型別,有數萬個樣本;而雙室肥大則是一種非常罕見的異常,僅有極少的樣本。這種明顯的長尾分佈突出了研究中的挑戰。

圖片

圖一:心電型別長尾分佈情況

這 116 種心電圖型別可以大致分為三類:疾病分類、非特異性特徵以及訊號採集。研究團隊收集了截至 2020 年的所有心電圖記錄,共計 416,951 個正常心電圖和 482,976 個異常心電圖,並將其用於模型訓練。為有效評估模型在長尾分佈場景下的分類效能,研究團隊在 2021 年的心電圖資料上進行了內部驗證,驗證資料包括 94,304 個正常心電圖和 95,136 個異常心電圖。為進一步測試模型的適應性,團隊根據心電圖型別的出現頻率將驗證集劃分為三種不同的測試集:常見型別、不常見型別和罕見型別。

圖片

圖二:資料集具體型別,年齡性別分佈,與外部驗證的開源資料集 PTB-XL 對比

方法介紹

本研究提出了一個新穎的兩階段框架,將 ECG 診斷轉化為一個細粒度、長尾分類問題。首先,框架透過異常檢測預訓練階段來定位心電圖中的異常區域,這有助於後續分類任務的集中和精確執行。基礎假設是,預訓練透過專注於區分正常和異常訊號,使模型能夠更有效地識別罕見異常的特徵,進而提升模型在長尾資料分佈上的表現。分類元件無縫整合到預訓練的異常檢測模型中,作為一個額外分類頭,確保一個統一的診斷流程,模擬專家心臟病學家所進行的全面、逐步分析。

該框架的核心創新在於,設計了一種專門針對 ECG 訊號的新型掩碼和恢復技術,用於自監督異常檢測預訓練。該框架的核心元件是多尺度交叉注意力模組,大大增強了模型在整合全域性與區域性訊號特徵方面的能力。與現有主要聚焦於時間序列分析的異常檢測方法不同,本研究還整合了 QRS 和 QT 間期等關鍵 ECG 引數以及年齡、性別等人口統計因素,這些因素對於準確理解個體心臟狀況至關重要。透過這種綜合整合,該框架能夠更細緻地解讀 ECG 訊號,減少個體差異對診斷的影響,從而顯著提升診斷的準確性。

圖片

圖三:提出的兩階段 ECG 診斷框架仿照醫生的診斷流程,包括兩個主要步驟,即自監督的心電圖異常檢測預訓練和基於預訓練的異常檢測模型微調分類器

實驗結果

(1)內部驗證

實驗結果顯示,使用簡單的監督分類方法時,隨著 ECG 型別從常見轉為稀有,模型效能顯著下降。然而,當引入基於預訓練的異常檢測模型(使用正常 ECG 資料進行訓練)後,這種效能下降得到了明顯緩解。在實驗中,研究團隊透過兩種設定(1. 固定異常檢測模型,僅微調分類器,2. 聯合訓練異常檢測模型和分類器)對模型進行了評估,結果顯示,無論哪種設定,模型在處理所有資料子集時的指標均有所改善,尤其是在應對長尾稀有資料時表現尤為突出。

表一:心電診斷內 / 外部驗證結果

圖片

除了評估總體診斷效能外,確保模型在關鍵人口特徵上的公平性也至關重要,尤其是在臨床應用中,不同年齡組和性別之間的診斷準確性需要保持一致。實驗結果顯示,男性和女性之間的診斷效能基本相當。在所有測試資料中,不同年齡組的診斷效能也相對一致,雖然在 10 歲以下和 90 歲以上患者中的表現略低,但在 10 歲至 90 歲之間的年齡組中,模型的 AUROC 和特異性均保持在 90% 以上。

圖片

圖四:長尾型別的診斷結果,診斷公平性與異常定位效果

在異常檢測效能評估上,研究團隊提出的方法在大多數評價指標上均優於現有方法,涵蓋所有測試資料集。具體來說,該方法實現了 91.2% 的 AUROC,83.7% 的 F1 分數,84.2% 的敏感性,83.0% 的特異性,以及在固定 90% 召回率下 75.6% 的精度,顯著超越了其他競爭方法。該模型對細微訊號模式變化的敏感性更高,能夠比真實情況中的廣泛標註更精確地定位異常。這些精準定位為潛在異常提供了寶貴的見解,從而為醫療從業者提供了顯著支援。

表二:心電異常檢測與定位實驗結果

圖片

(2)外部驗證

研究團隊使用歐洲的開源心電資料集 PTB-XL 對研究方法和基線模型進行了外部驗證。與內部資料集相比,該資料集在年齡分佈、訊號採集質量和心電圖訊號型別方面存在顯著差異。透過線性探測將本方法應用於外部驗證資料集時,聯合訓練的異常檢測模型與分類器實現了最高的診斷準確性。值得注意的是,線上性探測過程中,只有分類器的最終線性層參與了訓練,而其餘模型引數則保持不變。

(3)前瞻驗證

為了嚴格評估模型在真實臨床環境中的表現,研究團隊在不進行微調的情況下,將模型部署在醫院環境中,設定了 AI 輔助診斷組和對照組,透過對比兩組醫生的診斷準確率、診斷效率和結論完整度,來驗證 AI 模型輔助診斷對心臟病專家診斷過程的影響。每份心電圖都由至少三位心臟病專家在不同條件下進行評估:

a. 心臟病專家 A 的任務是在儘可能短的時間內提供診斷結論,模擬緊急情況下需要快速決策的場景。
b. 心臟病專家 B 在沒有時間限制的情況下獨立進行診斷,代表常規診斷流程。
c. 心臟病專家 C 在 AI 模型的輔助下進行診斷,模型為每個病例提供了五種最有可能的異常型別作為參考。

在時間限制下,心臟病專家的診斷準確性較低,心臟病專家 A 的結論不夠全面,主要集中於識別關鍵疾病。相比之下,在沒有時間限制的情況下,心臟病專家 B 的診斷全面性和準確性都有顯著提升。AI 方法的優勢在於分析一份心電圖只需 0.055 秒,速度大約是人類急診診斷時間的 1000 倍。除了速度優勢外,AI 方法還實現了 81.9% 的診斷準確率,明顯優於未使用輔助工具的人類 67.7% 的診斷準確率。當結合臨床實踐時,AI 輔助的心臟病專家診斷準確率達到了 84.0%,比未使用輔助工具的診斷提高了 6.7%。此外,診斷效率顯著提高,平均診斷時間縮短了 36 秒。AI 系統還提供了更詳細的訊號模式和節律分析,特別是在識別 T 波變化和竇性心動過速等細微變化方面,使 11.8% 的心電圖結論更加全面,從而提升了診斷結果的整體質量。

圖片

圖五:前瞻驗證中,診斷準確率,結論完整性與診斷時間對比

在臨床診斷中,尤其是面對長尾異常,心臟病專家在時間限制或經驗不足的情況下,容易出現誤診,通常表現為較高的特異性(>99%)但敏感性卻非常低(<50%)。將 AI 整合到診斷過程中,顯著減少了這些誤診,提高了對罕見異常的檢測能力,並突出了關鍵的訊號模式。當 AI 作為輔助工具使用時,心臟病專家在處理長尾資料時的敏感性從 46.9% 提高到 71.4%,同時特異性仍保持在 99.7% 的高水平。這表明 AI 在增強臨床決策,特別是在具有挑戰性的診斷場景中,展現出了巨大的潛力。

表三:前瞻驗證中,常見與長尾心電型別的診斷敏感性,特異性對比

圖片

研究價值

作為首個基於異常檢測預訓練的心電長尾診斷模型,該研究在以下幾個方面展現了其重要價值:

  • 臨床應用的巨大潛力:透過異常檢測預訓練,該模型能夠以遠超經驗豐富的心臟病專家的速度,提供準確且全面的診斷結果。這表明,AI 輔助系統在臨床診斷中具有廣闊的應用前景,無論是在緊急情況下還是常規 ECG 評估中,均能發揮重要作用。
  • 減輕長尾分佈影響的能力:異常檢測預訓練透過識別可能的異常特徵偏差,使模型能夠集中關注特定異常區域,從而更精確地分類不同型別的異常。這種方法促進了對各種稀有異常的高效學習,有效應對了不平衡的長尾異常分佈帶來的挑戰。
  • 提供可解釋且資訊豐富的定位結果:除了提升診斷效能外,異常檢測預訓練還具備一個關鍵優勢,即能夠精確定位異常。這為模型的診斷決策提供了清晰且易於理解的解釋,有助於醫療從業者更好地理解診斷結果。
  • 臨床診斷模型的公平性:該研究模型在男性和女性之間,以及 10 至 90 歲各年齡組中的診斷效果相當。這些發現強調了在臨床實踐中,考慮人口統計因素以提升診斷準確性和公平性的重要性。進一步研究有助於揭示這些年齡和性別差異的機制,從而開發改善所有患者群體健康結果的策略。
  • 可擴充套件的 ECG 診斷框架:該框架專為解決 ECG 資料的長尾分佈問題而設計,並經過對 116 種不同 ECG 型別的細緻訓練。這種全面覆蓋確保了模型能夠適應臨床實踐中遇到的幾乎所有 ECG 型別,使其在多樣化資料集中的適應性和通用性得到了高度保障。

相關文章