編輯丨coisini
多模態生成式人工智慧的最新進展已將生物醫學應用擴充套件到同時處理文字和影像,在視覺問答和放射學報告生成等任務中展現出潛力。然而,這些模型在臨床實現中面臨挑戰,特別是大型模型在計算成本等方面帶來了部署難題。小型多模態模型(SMM)雖然更高效,但與大型模型相比仍存在顯著效能差距。此外,缺乏可訪問的開源模型和可靠的事實正確性評估方法,特別是模型幻覺為臨床採用設定了重大障礙。
來自微軟研究院、華盛頓大學、史丹佛大學、南加州大學、加州大學戴維斯分校和加州大學舊金山分校的研究人員提出了一種新型小型多模態模型(SMM)——LLaVA-Rad,以及用於事實正確性自動評分的新指標 CheXprompt。
論文地址:https://arxiv.org/pdf/2403.08002
LLaVA-Rad 專注於胸部 X 光(CXR)成像,旨在為醫學影像檢查自動生成高質量放射學報告。該模型在七個不同來源的資料集上進行了訓練,共包含 697435 對放射學影像 - 報告,並在僅有結構化標籤時利用 GPT-4 進行報告合成。
值得一提的是,LLaVA-Rad 僅需單個 V100 GPU 進行推理,並使用 8 個 A100 叢集在一天內完成訓練。
LLaVA-Rad 的架構代表了一種小型多模態模型(SMM)的全新方法,儘管其規模顯著小於 Med-PaLM M 等模型,但仍實現了卓越的效能。該模型的設計理念圍繞將訓練過程分解為不同的階段:單模態預訓練和輕量級跨模態學習。
LLaVA-Rad 的架構採用了一種高效的介面卡機制,將非文字模態嵌入到文字嵌入空間中。訓練過程分為三個階段:預訓練、對齊和微調。這種模組化方法實現了穩健的單模態模型開發和有效的跨模態適應。
與類似規模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均為 70 億引數)相比,LLaVA-Rad 表現出卓越的效能。並且,儘管規模顯著較小,但 LLaVA-Rad 在關鍵指標上超越了 Med-PaLM M 模型,在放射學文字評估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。
LLaVA-Rad 在多個資料集(包括 CheXpert 和 Open-I)上均保持了優異效能,即使在測試未見過資料時也是如此。這歸功於 LLaVA-Rad 的模組化設計和資料高效架構。LLaVA-Rad 的整體效能和計算效率使其在實際應用中極具實用性。
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。