編輯 | 白菜葉
基礎模型正在成為醫學領域的寶貴工具。然而,儘管它們前景廣闊,但在複雜的醫學任務中如何最好地利用大型語言模型 (LLM) 仍是一個懸而未決的問題。
麻省理工學院、谷歌研究院和首爾國立大學醫院的研究人員提出了一種新穎的多智慧體框架,稱為醫療決策智慧體 (MDAgents),它透過自動為 LLM 團隊分配協作結構來幫助解決這一差距。
指定的個人或小組協作結構是根據手頭的醫療任務量身定製的,模擬適應不同複雜程度任務的真實醫療決策過程。該團隊使用最先進的 LLM 在一系列真實醫學知識和醫學診斷基準中評估他們的框架和基線方法,包括將 LLM 的醫療複雜性分類與人類醫生進行比較。
在需要理解醫學知識和多模態推理的任務中,MDAgents 在十項基準測試中的七項中取得了最佳表現,與以前方法的最佳表現相比,其顯著提高了 4.2% (p < 0.05)。
消融研究表明,MDAgents 可以有效確定醫學複雜性,從而最佳化各種醫學任務的效率和準確性。值得注意的是,在小組協作中,主持人評審和外部醫學知識的結合使平均準確度提高了 11.8%。
該研究以「MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making」為題,於 2024 年 10 月 30 日更新在 arXiv 預印平臺。
基礎模型在醫學領域前景廣闊,尤其是在協助完成醫療決策 (MDM) 等複雜任務方面。MDM 是一個細緻入微的過程,要求臨床醫生分析各種資料來源(如影像、電子健康記錄和遺傳資訊),同時適應新的醫學研究。
LLM 可以透過綜合臨床資料並實現機率和因果推理來支援 MDM。然而,由於需要適應性強的多層方法,將 LLM 應用於醫療保健領域仍然具有挑戰性。儘管多智慧體 LLM 在其他領域顯示出潛力,但它們目前的設計缺乏與有效臨床應用所必需的協作式、分層決策的整合。
LLM 越來越多地應用於醫學任務,例如回答醫學考試問題、預測臨床風險、診斷、生成報告和建立精神病評估。醫學 LLM 的改進主要源於使用專門資料進行訓練或使用推理時間方法,例如即時工程和檢索增強生成 (RAG)。
通用模型(如 GPT-4)透過高階提示在醫學基準上表現良好。多智慧體框架提高了準確性,智慧體透過協作或辯論來解決複雜任務。然而,現有的靜態框架可能會限制不同任務的效能,因此動態多智慧體方法可能更好地支援複雜的醫療決策。
麻省理工學院、谷歌研究院和首爾國立大學醫院開發了 MDAgents,這是一個多智慧體框架,旨在根據醫療任務的複雜性動態分配 LLM 之間的協作,模擬現實世界的醫療決策。
MDAgents 可以根據具體任務自適應地選擇單獨或團隊協作,在各種醫療基準測試中表現良好。它在 10 個基準測試中的 7 箇中超越了之前的方法,準確率提高了 4.2%。關鍵步驟包括評估任務複雜性、選擇合適的智慧體和綜合響應,透過小組評審可將準確率提高 11.8%。MDAgents 還透過調整智慧體使用來平衡效能和效率。
MDAgents 框架圍繞醫療決策的四個關鍵階段構建:
首先評估醫療查詢的複雜程度,將其分為低、中、高;
根據此評估,招募合適的專家:針對較簡單的病例,招募單個臨床醫生;針對較複雜的病例,招募多學科團隊;
然後,分析階段將根據案例的複雜程度採用不同的方法,包括從個人評估到協作討論;
最後,系統綜合所有見解以形成結論性決策,準確的結果表明,與單智慧體和其他多智慧體設定相比,MDAgents 在各種醫療基準上都具有有效性。
圖示:PMC-VQA 資料集中中等複雜程度案例中 MDAgents 的說明性示例。(來源:論文)
該研究在 Solo、Group 和 Adaptive 條件下評估了各種醫療基準測試中的框架和基線模型,顯示出顯著的穩健性和效率。
Adaptive 方法 MDAgents 可根據任務複雜性有效調整推理,並在十個基準測試中的七個中始終優於其他設定。
測試 MedQA 和 Path-VQA 等資料集的研究人員發現,自適應複雜度選擇可提高決策準確性。
圖示:該方法在不同的醫學基準上優於 Solo 和 Group 設定。(來源:論文)
透過結合 MedRAG 和主持人的評審,準確率可提高高達 11.8%。此外,該框架對引數變化(包括溫度調整)的彈性凸顯了其對複雜醫療決策任務的適應性。
論文連結:https://arxiv.org/abs/2404.15155
相關報導:https://www.marktechpost.com/2024/11/04/mdagents-a-dynamic-multi-agent-framework-for-enhanced-medical-decision-making-with-large-language-models/