科學家構建多模態LLM框架,進行3D腦CT放射學報告生成

ScienceAI發表於2025-03-13
圖片

編輯 | 爛菜葉

多模態大型語言模型 (MLLM) 已經改變了現代醫療保健的格局,其中自動放射學報告生成 (RRG) 正在成為一種尖端應用。

雖然基於 2D MLLM 的 RRG 已經得到充分認可,但其在 3D 醫學影像中的實用性仍未得到充分開發。

在這方面,臺北榮民總醫院(Taipei Veterans General Hospital)、臺灣陽明交通大學(National Yang Ming Chiao Tung University)以及美國加州大學的研究人員整理了 3D-BrainCT 資料集(18,885 個文字掃描對)並開發了 BrainGPT,這是一種專為 3D CT RRG 設計的臨床視覺指令調整 (CVIT) 模型。

該團隊還提出了面向特徵的放射學任務評估 (FORTE),這是一種捕捉生成報告的臨床本質的評估方案。

測試表明 BrainGPT 的平均 FORTE F1 得分為 0.71(degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779),並且在類圖靈測試中,74% 的 BrainGPT 生成的報告與人類書寫的基本事實無法區分。

該研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」為題,於 2025 年 3 月 6 日釋出在《Nature Communications》。

圖片

現代醫療保健中的人工智慧 (AI) 實施徹底改變了醫院在患者診斷、疾病干預和臨床研究方面的日常實踐。雖然卷積神經網路 (CNN) 已經攻克了影像分類和特徵分割方面的一些主要任務,但 CNN 輸出相對受上下文限制,並且不如完整的書面診斷報告那麼令人擔憂。

鑑於這一臨床差距,已建立了用於胸部 X 光 (CXR) 解釋的早期報告生成模型。其中,基於 LLM 的 CXR 報告生成的成功激發了跨學科領域科學家對人機介面的探索興趣,其中多模態大型語言模型 (MLLM) 可以作為醫療專家的助手。

為了評估 MLLM 在放射學報告生成 (RRG) 中的準備情況,臺北榮民總醫院的研究人員調查了相關工作並確定了迄今為止 MLLM 放射學應用中的三個客觀限制:

(1)研究最多的 CXR 模式缺乏足夠的病變多樣性來反映現實世界的診斷挑戰,(2)在解釋體積掃描時尚未充分測試最大模型容量,(3)沒有可用於衡量 MLLM 報告資訊密度和保真度的通用評估指標。

新方案

這些未解決的問題共同阻礙了具有影響力的醫學 MLLM 的發展。在最新的研究中,該團隊在透過解決以下問題來提高 MLLM 在放射學中的適應性:

(1)他們整理了一個大規模 3D 腦 CT 資料集(18,885 個文字掃描對),其中包含豐富的病變細節,包括神經元和血管 CT 特徵的程度、空間標誌和診斷印象。

(2)研究人員提出了臨床視覺指令調整 (CVIT) 概念,以增強開源 Otter 基礎模型的醫學領域知識。在這種情況下,CVIT 增強型 BrainGPT 模型展示了多影像字幕(Image Captioning)功能,並對體積腦 CT 掃描進行了臨床合理的解釋。BrainGPT 模型的診斷準確性和語言風格在 CQ500 資料集上進行了外部驗證,幷包括 11 名醫生評估員進行類似圖靈測試的語言風格評估。

(3)團隊提出了一種面向特徵的放射學任務評估 (FORTE) 評估結構,來評估 MLLM 生成字幕的應用前景。FORTE 的變數包括診斷放射學句子中的四個基本關鍵字組成部分(程度、標誌、特徵和印象)。透過進一步檢查生成的內容和評估分數之間的相關性,他們建議使用句子配對和否定消除對 MLLM 輸出進行預處理可以增強對齊並過濾掉不相關的影像描述。

圖片

圖示:使用 MLLM 從 3D 腦部 CT 掃描生成放射學報告的示意圖概述。(來源:論文)

效能評估與討論

之前,Hamamci 團隊研究表明,生成模型能夠以最先進的 (SOTA) 水平生成 3D 胸部 CT 報告(BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9)。

然而,他們的定製 Transformer 模型需要在單個 NVIDIA A100 GPU 上進行 7 天的訓練,而這裡開發的 BrainGPT 模型只需要在兩個 NVIDIA A100 GPU 上進行 12 小時的微調。

此外,Google AI 的 Med-Gemini-3D 可以生成 3D CT 報告,但只有 53% 的報告在人體評估中被認為具有臨床有效性。使用大規模 Google TPUv4 加速器艙的高計算成本使得這種方法不適用於資源有限的一般研究。

相比之下,BrainGPT 使用端到端開源 Otter 框架(CLIP ViT-L/14 視覺編碼器和 LlaMA-7B),允許進行實驗複製和檢查點共享。此外,BrainGPT 的訓練成本降低,可以實現高效的視覺指令調整,提高模型效能並根據專業或風格要求定製響應。

圖片

圖示:採用臨床視覺指令調整 (CVIT) 從基線 Otter 模型對 BrainGPT 進行微調。(來源:論文)

雖然該團隊沒有修改 Otter 模型結構,但他們將 SOTA 級效能歸因於 RVIT 和 CVIT 的綜合作用。

之前,Singhal 團隊首先探索了醫學領域中特定於任務的 RVIT,並報告說,聊天機器人的效能隨著醫學 QA 上下文示例啟動而得到改善。同樣,Med-PaLM M 使用影像提示(CXR 和病理幻燈片)以及臨床指導來指導 MLLM 完成多模態醫療任務。

與這些研究相呼應,這裡的 CVIT 模型(BrainGPT 模板、BrainGPT 關鍵字)在腦 CT 字幕製作方面的表現優於 RVIT 模型。這表明,精細的專家級指導設計可能會最佳化臨床字幕製作任務的模型結果。

科學家構建多模態LLM框架,進行3D腦CT放射學報告生成

圖示:透過醫生參與的圖靈測試評估 BrainGPT 報告的語言準備情況。(來源:論文)

研究人員還強調,傳統指標不適合評估臨床字幕任務。醫學影像報告有助於鑑別診斷,因此具有複雜的釋義、高標記數(>100)和大量負面描述的特點,這與常見的指標評估背景相沖突。

他們還觀察到一種「解讀狂歡」行為,其中 BrainGPT 從多物件腦 CT 上下文中提供脫靶(但不是幻覺)診斷敘述。這種行為是有害的,因為 (1) 脫靶效應可能會排除原發疾病焦點(例如中風或腦腫瘤),以及 (2) 擴大敘述可能會稀釋傳統指標,導致無效評估。

為此,FORTE 作為一個評估框架,由句子配對、否定刪除和 4 類關鍵詞提取組成,它可以連貫地限制模型幻覺、增強解釋收斂性,併為醫療保健提供者提供即時放射學印象。

研究人員對不同的評估指標進行了皮爾遜相關性分析,並報告稱 FORTE 方法比相對單一的傳統指標涵蓋了更廣泛的醫學語義維度。它與人類專家評估和 DocLens 評分的相關性都達到中等到高度,進一步證明了這一點。

此外,FORTE 框架是可定製的,可以在各種醫療任務之間轉移,沒有任何焦點限制,該團隊的 GitHub 頁面上提供了可互換的分類關鍵字型檔作為關鍵字 JSON 檔案,並針對胸部 X 光、低劑量計算機斷層掃描 (LDCT)、腹部 CT 和腦部 CT 任務展示了一些示例。

在 FORTE 框架內,BrainGPT 取得了令人稱讚的表現,F1 得分達到 0.589,與一般醫學疾病識別中最先進的 (SOTA) 效能相當,在先前的基準研究中報告的準確率為 59.2%。

自然語言處理實驗中的人類專家評估是在不同的實驗設計下進行的,並且服務於不同的研究目的。因此,在不同情況下,得到的觀點往往不一致且不可比。因此,相關研究採用定量(完整性、正確性、簡潔性)和定性(內容、語言、結構)測量來剖析區分合成臨床報告和人工報告的引人注目的特徵。

透過採用具有客觀語言標準的類似設計,研究人員發現審閱者成功率和答案交替原因(「可疑措辭」和「都沒有提到關鍵特徵」)都與寫作風格(「熟悉度和語氣」和「細節的具體性或模糊性」)有關,而不是與句子級的寫作質量和連貫性有關。一項獨立的提示研究也強調了醫學報告寫作風格的重要性。

有趣的是,他們觀察到輸入案例不平衡會影響字幕寫作風格,這可能與一般模型訓練期間觀察到的過度擬合有關。

侷限性與結語

該研究同樣存在幾個侷限性,或許在未來的工作中加以解決。

首先,這是一項試點體積腦 CT 字幕研究,沒有對應的 MLLM 模組進行基準測試,因此研究人員無法證明 SOTA 級別的有效性;但是,他們應用了外部驗證來確保腦 CT 模組中的字幕有效性。

其次,BrainGPT 是在退化導向資料上進行訓練的,因此無法捕捉 CQ500 中的惡性腫瘤和急性創傷特徵。這一現象反映出訓練材料可能會為最終模組的靈活性打下基礎。因此,團隊建議納入不同的疾病病因,以進行鑑別診斷,從而提高 MLLM 對邊界腦 CT 特徵的概括。

最後,該團隊進行了 CVIT 併發明瞭面向臨床的評估(句子配對、否定消除和 FORTE),但他們沒有試驗改變模型主幹是否有利於腦 CT 標記。未來的研究途徑可能是比較多模型結果並微調 CT 的視覺編碼器和語言模型

論文連結:https://www.nature.com/articles/s41467-025-57426-0

相關文章