編輯 | ScienceAI
近日,上海交通大學、上海 AI Lab、中國移動等機構的聯合研究團隊,在 arXiv 預印平臺釋出文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》,從資料、測評、模型多個角度全面分析討論了臨床醫學大語言模型應用。
文中所涉及的所有資料和程式碼、模型均已開源。
概覽
近年來,大型語言模型(LLM)取得了顯著的進展,並在醫療領域取得了一定成果。這些模型在醫學多項選擇問答(MCQA)基準測試中展現出高效的能力,並且 UMLS 等專業考試中達到或超過專家水平。
然而,LLM 距離實際臨床場景中的應用仍然有相當長的距離。其主要問題,集中在模型在處理基本醫學知識方面的不足,如在解讀 ICD 編碼、預測臨床程式以及解析電子健康記錄(EHR)資料方面的誤差。
這些問題指向了一個關鍵:當前的評估基準主要關注於醫學考試選擇題,而不能充分反映 LLM 在真實臨床情景中的應用。
本研究提出了一項新的評估基準 MedS-Bench,該基準不僅包括多項選擇題,還涵蓋了臨床報告摘要、治療建議、診斷和命名實體識別等 11 項高階臨床任務。
研究團隊透過此基準對多個主流的醫療模型進行了評估,發現即便是使用了 few-shot prompting,最先進模型,例如,GPT-4,Claude 等,在處理這些複雜的臨床任務時也面臨困難。
為解決這一問題,受到 Super-NaturalInstructions 的啟發,研究團隊構建了首個全面的醫學指令微調資料集 MedS-Ins,該資料集整合了來自考試、臨床文字、學術論文、醫學知識庫及日常對話的 58 個生物醫學文字資料集,包含超過 1350 萬個樣本,涵蓋了 122 個臨床任務。
在此基礎上,研究團隊對開源醫學語言模型進行指令調整,探索了 in-context learning 環境下的模型效果。
該工作中開發的醫學大語言模型——MMedIns-Llama 3,在多種臨床任務中的表現超過了現有的領先閉源模型,如 GPT-4 和 Claude-3.5。MedS-Ins 的構建極大的促進了醫學大語言模型在實際臨床場景的中的能力,使其應用範圍遠超線上聊天或多項選擇問答的限制。
相信這一進展不僅推動了醫學語言模型的發展,也為未來臨床實踐中的人工智慧應用提供了新的可能性。
測試基準資料集(MedS-Bench)
為了評估各種 LLM 在臨床應用中的能力,研究團隊開發了 MedS-Bench,這是一個超越傳統選擇題的綜合性醫學基準。如下圖所示,MedS-Bench 源自 39 個現有資料集,覆蓋 11 個類別,總共包含 52 個任務。
在 MedS-Bench 中,資料被重新格式化為指令微調的結構。此外,每條任務都配有人工標註的任務定義。涉及的 11 個類別分別是:選擇題解答(MCQA)、文字摘要(Text Summarization)、資訊提取(Information Extraction)、解釋與推理(Explanation and Rationale)、命名實體識別(NER)、診斷(Diagnosis)、治療計劃規劃(Treatment Planning)、臨床結果預測(Clinical Outcome Prediction)、文字分類(Text Classification)、事實驗證(Fact Verification)和自然語言推理(NLI)。
除了定義這些任務類別,研究團隊還對 MedS-Bench 文字長度進行了詳細的統計,並區分了 LLM 處理不同任務所需的能力,如下表所示。LLM 處理任務所需的能力被分為兩類:(i)根據模型內部知識進行推理;(ii) 從提供的上下文中檢索事實。
廣義上講,前者涉及的任務需要從大規模預訓練中獲取編碼在模型權重中的知識,而後者涉及的任務則需要從所提供的上下文中提取資訊,如總結或資訊提取。如表 1 所示,總共有八類任務要求模型從模型中呼叫知識,而其餘三類任務則要求從給定上下文中檢索事實。
表 1:所用測試任務的詳細統計資訊。
指令微調資料集(MedS-Ins)
此外,研究團隊還開源了指令微調資料集 MedS-Ins。該資料集覆蓋 5 個不同的文字源和 19 個任務類別,共計 122 個不同的臨床任務。下圖總結了 MedS-Ins的構造流程以及統計資訊。
文字源
本文提出的指令微調資料集由五個不同來源的樣本組成:考試、臨床文字、學術論文、醫學知識庫和日常對話。
考試:該類別包含來自不同國家醫學考試試題的資料。它涵蓋了從基本醫學常識到複雜臨床手續廣泛的醫學知識。考試題目是瞭解和評估醫學教育水平的重要手段,然而值得注意的是,考試的高度標準化往往導致其案例與真實世界的臨床任務相比過於簡化。資料集中 7% 的資料來自考試。
臨床文字:該類別文字在常規臨床實踐中產生,包括醫院和臨床中心的診斷、治療和預防過程。這類文字包括電子健康記錄 (EHR)、放射報告、化驗結果、隨訪指導和用藥建議等。這些文字是疾病診斷和患者管理所不可或缺的,因此準確的分析和理解對於 LLM 的有效臨床應用至關重要。資料集中 35% 的資料來自臨床文字。
學術論文:該類別資料來源於醫學研究論文,涵蓋了醫學研究領域的最新發現和進展。由於學術論文便於獲取和結構化組織,從學術論文中提取資料相對簡單。這些資料有助於模型掌握最前沿的醫學研究資訊,引導模型更好地理解當代醫學的發展。資料集中有 13% 的資料來自學術論文。
醫學知識庫:該類別資料由組織良好的綜合醫學知識組成,包括醫學百科全書、知識圖譜和醫學術語詞彙表。這些資料構成了醫學知識庫的核心,為醫學教育和 LLM 在臨床實踐中的應用提供了支援。資料集中 43% 的資料來自醫學知識。
日常對話:該類別資料指的是醫生與患者之間產生的日常諮詢、主要來源於線上平臺和其他互動場景。這些資料反映了醫務人員與患者之間的真實互動、在瞭解患者需求、提升整體醫療服務體驗方面發揮著至關重要的作用。資料集中有 2% 的資料來自日常對話。
任務種類
除了對文字涉及領域進行分類外,研究團隊對 MedS-Ins 中樣本的任務類別進行進一步細分:確定了 19 個任務類別,每個類別都代表了醫學大語言模型應具備的關鍵能力。透過構建該指令微調資料集並相應地微調模型,使大語言模型具備處理醫療應用所需的多種能力,具體如圖 2 所示。
MedS-Ins 中的 19 個任務類別包括但不限於 MedS-Bench 基準中的 11 個類別。額外的任務類別涵蓋了醫學領域所必需的一系列語言和分析任務,包括意圖識別、翻譯、單詞關係分類、文字檢索、句子成分分析、錯誤候選詞生成、對話和文字補齊,而 MCQA 則擴充套件為一般的問答。任務類別的多樣性——從普通問答和對話到各種下游臨床任務,保證了對醫療應用的全面理解。
量化對比
研究團隊廣泛地測試了現存六大主流模型(MEDITRON, Mistral, InternLM 2, Llama 3, GPT-4 and Claude-3.5)在每種任務型別上的表現,首先討論各種現有 LLM 的效能,然後與提出的最終模型 MMedIns-Llama 3 進行比較。在本文中,所有結果都是使用 3-shot Prompt 得出的。除了在 MCQA 任務中使用了 zero-shot Prompt,以便與之前的研究保持一致。由於 GPT-4 和 Claude 3.5 等閉源模型會產生費用,受限於成本,實驗中僅對每個任務抽樣 50-100 個測試用例,全面的測試量化結果如表 2-8 所示。
多語種多選題問答:表 2 以「Accuracy」展示了在廣泛使用的 MCQA 基準上的評估結果。在這些多選題問答資料集上,現有的大語言模型都表現出了非常高的準確率,例如,在 MedQA 上,GPT-4 可以達到 85.8 分,幾乎可以與人類專家相媲美,而 Llama 3 也能以 60.9 分透過考試。同樣,在英語以外的語言方面,LLM 在 MMedBench 上的多選準確率也表現出優異的成績。
結果表明,由於多選題在現有研究中已被廣泛考慮,不同的 LLM 可能已針對此類任務進行了專門最佳化,從而獲得了較高的效能。因此,有必要建立一個更全面的基準、 以進一步推動 LLM 向臨床應用發展。
表2:選擇題上的量化結果,各項指標以選擇準確率ACC進行衡量。
文字總結:表 3 以 「BLEU/ROUGE 」分數的形式報告了不同語言模型在文字總結任務上的效能。測試覆蓋了多種報告型別,包括 X 光、CT、MRI、超聲波和其他醫療問題。實驗結果表明,GPT-4 和 Claude-3.5 等閉源大語言模型的表現優於所有開源大語言模型。
在開源模型中,Mistral 的結果最好,BLEU/ROUGE 分別為 24.48/24.90,Llama 3 緊隨其後,為 22.20/23.08。
本文提出的 MMedIns-Llama 3 是在特定醫療教學資料集(MedS-Ins)上訓練出來的,其表現明顯優於其他模型,包括先進的閉源模型 GPT-4 和 Claude-3.5,平均得分達到 46.82/48.38。
表 3:文字總結任務上的量化結果。
資訊抽取:表 4 以「Accuracy」展示了不同模型資訊提取的效能。InternLM 2 在這項任務中表現優異,平均得分為 81.58,GPT-4 和 Claude-3.5 等閉源模型的平均得分分別為 77.49 分和 78.86 分,優於所有其他開源模型。
對單個任務結果的分析表明,與專業的醫療資料相比,大多數大語言模型在提取病人基本資訊等不太複雜的醫療資訊方面表現更好。例如,在從 PMC 患者中提取基本資訊方面,大多數大語言模型的得分都在 90 分以上,其中 Claude-3.5 的得分最高,達到 98.02 分。相比之下,PICO 中臨床結果提取任務的表現相對較差。本文提出的模型 MMedIns-Llama 3 整體表現最佳,平均得分 83.18,超過 InternLM 2 模型 1.6 分。
表 4:資訊提取任務上的量化結果,各項指標以準確度(ACC)進行衡量。「Ext.」表示Extraction,「Info.」表示 Information。
醫學概念解釋:表 5 以 「BLEU/ROUGE 」分數的形式展示了不同模型醫學概念解釋能力,GPT-4,Llama 3和Mistral 在這項任務中表現良好。
相反,Claude-3.5、InternLM 2 和 MEDITRON 的得分相對較低。MEDITRON 的表現相對較差可能是由於其訓練語料更側重於學術論文和指南,因此在對於醫學概念解釋方面能力有所欠缺。
最終模型 MMedIns-Llama 3 在所有概念解釋任務中的表現都明顯優於其他模型。
表 5:醫學概念解釋上的量化結果,各項指標以 BLEU-1/ROUGE-1 進行衡量;「Exp.」表示 Explanation。
歸因分析(Rationale):表 6 以 「BLEU/ROUGE 」分數的形式評估了各個模型在歸因分析任務上的效能,使用 MMedBench 資料集對六種語言的各種模型的推理能力進行了比較。
在測試的模型中,閉源模型 Claude-3.5 表現出最強的效能,平均得分為 46.03/37.65。這種優異的表現可能是因為該任務與生成 COT 相似,而後者在許多通用 LLM 中均得到了特別增強。
在開源模型中,Mistral 和 InternLM 2 表現出了相當的效能,平均得分分別為 37.61/31.55 和 30.03/26.44。值得注意的是,GPT-4 被排除在本次評估之外,因為 MMedBench 資料集的歸因分析部分主要使用 GPT-4 來生成構建,這可能會引入測試偏差,從而導致不公平的比較。
與概念解釋任務上的表現一致,最終模型 MMedIns-Llama 3 也展現了最佳的整體效能,所有語言上的平均得分為 47.17/34.96。這種優異的表現可能是因為選用的基礎語言模型(MMed-Llama 3)最初是為多語言開發的。因此,即使指令調整沒有明確針對多語言資料,最終模型在多種語言中的表現仍然優於其他模型。
表 6:歸因分析(Rationale)上的量化結果,各項指標以 BLEU-1/ROUGE-1 進行衡量。此處沒有 GPT-4 是因為原始資料基於 GPT-4 生成結果構造,存在公平性偏倚,故未比較 GPT-4。
醫學實體抽取(NER):表 7 以「F1」分數的形式測試了現有的 6 個模型在 NER 任務上的表現。GPT-4 是唯一一個在命名實體識別 (NER) 各項任務中均表現優異的模型,平均 F1 分數為 44.30 。
它在 BC5Chem 化學實體識別任務中表現尤為出色,得分為 63.77。InternLM 2 則緊隨其後,平均 F1 分數為 40.81,在 BC5Chem 和 BC5Disease 任務中均表現出色。Llama 3 和 Mistral 的平均 F1 分數則分別為 24.70 和 20.10,表現中等。MEDITRON 未針對 NER 任務進行最佳化,在此領域的效果差強人意。MMedIns-Llama 3 的表現則明顯優於所有其他模型,平均 F1 得分為68.58。
表 7:NER 任務上的量化結果,各項指標以F1-score進行衡量;「Rec.」代表「recognition」
診斷、治療推薦、和臨床結果預測:表 8 使用 DDXPlus 資料集作為診斷基準、SEER 資料集作為治療推薦基準和 MIMIC4ED 資料作為臨床結果預測任務基準來評估診斷、治療推薦和臨床結果預測三大任務的模型表現,結果以準確度來衡量,如表 8 所示。
在此,使用可以使用準確度指標來評估生成預測是因為這些資料集每一個都將原始問題簡化為一個閉集上的選擇問題。具體而言,DDXPlus 使用預定義的疾病列表,模型必須根據提供的患者背景從中選擇一個疾病。在 SEER 中,治療建議則被分為了八個高階類別,而在 MIMIC4ED 中,最終的臨床結果決策是始終是二值的(True or False)。
總體而言,開源 LLM 在這些任務中的表現不如閉源 LLM,在某些情況下,它們無法提供有意義的預測。例如,Llama 3 在預測 Critical Triage 方面表現不佳。對於 DDXPlus 診斷任務而言,InternLM 2 和 Llama 3 的表現略好一些,準確度為 32。然而,GPT-4 和 Claude-3.5 等閉源模型表現出明顯更好的效能。例如,Claude-3.5在SEER上準確度可以達到為90,而GPT-4則在 DDXPlus 的診斷方面的準確度上更高,得分為 52,突顯出了開源和閉源 LLM 之間的巨大差距。
儘管取得了這些成果,但這些分數仍然不足以可靠地用於臨床。相比之下, MMedIns-Llama 3 在臨床決策支援任務中則表現出了更加卓越的準確性,例如 SEER 上為 98,DDXPlus 上為 95,臨床結果預測任務上平均準確度為86.67(Hospitalization, 72h ED Revisit, and Critical Triage 得分的平均值)。
文字分類:表 8 還展示了對 HoC 多標籤分類任務的評估,並報告了 Macro-precision、Macro-recall 和 Macro-F1 Scores。對於這類任務,所有候選標籤都以列表的形式輸入到語言模型中,並要求模型選擇其對應的答案,並允許進行多項選擇。然後根據模型最終的選擇輸出計算準確度指標。
GPT-4 和 Claude-3.5 在此任務上表現良好,GPT-4 的 Macro-F1 分數為 60.38,Claude-3.5 則更為優異,取得了63.32。這兩個模型都表現出很強的召回能力,尤其是 Claude-3.5,其 Macro-Recall 為 80.96。Mistral 表現中等,Macro-F1 分數為 40.8,在精度和召回率之間保持平衡。
相比之下,Llama 3 和 InternLM 2 的整體表現較差,Macro-F1 得分分別為36.18 和 32.72。這些模型(尤其是 InternLM 2)表現出較高的召回率,但準確率卻很差,導致 Macro-F1 得分較低。
MEDITRON 在此任務中排名最低,Macro-F1 得分為 26.21。MMedIns-Llama 3 明顯優於所有其他模型,在所有指標中均獲得最高分,Macro-precision 為 91.29,Macro-recall 為 85.57,Macro-F1 得分為 87.37。這些結果凸顯了 MMedIns-Llama 3 準確分類文字的能力,使其成為處理這類複雜任務最有效的模型。
表 8:治療規劃(SEER)、診斷(DDXPlus)、臨床結果預測(MIMIC4ED)和文字分類(HoC Classification)四類任務上的結果。前 3 項任務的結果以準確率(Accuracy)為依據,文字分類結果以精確度(Precision)、召回率(Recall)和 F1 分數為依據。
事實糾正:表 9 展示了在事實驗證任務上模型評估結果。對於 PubMedQA 答案驗證和 HealthFact 驗證,LLM 需要從提供的候選列表中選擇一個答案,因此以準確度作為評估指標。
相對的,由於 EBMS 理由驗證,任務涉及生成自由格式的文字,使用 BLEU-1 和 ROUGE-1 分數來評估效能。InternLM 2 在 PubMedQA 答案驗證和 HealthFact 驗證中獲得了最高的準確度,得分分別為 98 和 92。
在 EBMS 基準測試中,GPT-4 表現出最強的效能,BLEU-1/ROUGE-1 得分分別為16.36/16.33。Claude-3.5 緊隨其後,得分為14.22/15.82,但它在PubMedQA答案驗證中表現不佳。
Llama 3 在 PubMedQA 和 HealthFact Verification 上的準確率分別為 94 和 64,BLEU-1/ROUGE-1 得分為12.96/14.37。MMedIns-Llama 3 繼續超越現有模型,與 InternLM 2 一樣在PubMedQA答案驗證任務上取得了最高的準確度得分,而在 EMBS 中,MMedIns-Llama 3 在 BLEU-1和 ROUGE-1 中以 11.99/12.90 的成績略微落後於 GPT-4。
醫學文字蘊含(NLI):表 9 還展示了以 MedNLI 為主的,在醫學文字蘊含(NLI)上的評估結果。測試方式有兩種,一種是判別任務(從候選列表中選擇正確答案),以準確度衡量,另一種是生成任務(生成自由格式文字答案),以BLEU/ROUGE 指標來衡量。
InternLM 2 在開源 LLM 中得分最高,得分為 84。對於閉源 LLM,GPT-4 和 Claude-3.5 都顯示出相對較高的分數,準確度分別為 82 和 86。在生成任務中,Llama 3 與真實值的一致性最高,BLEU 和 ROUGE 得分為 33.69/27.28。Mistral 和 Llama 3 則表現出中等水平。GPT-4 緊隨其後,得分為 27.09/23.71,而 Claude-3.5 在生成任務中表現並不理想。
MMedIns-Llama 3 在判別任務中準確率最高,得分為 84,但略落後於 Claude-3.5。MMedIns-Llama 3 在生成任務中也表現出色,BLEU/ROUGE 得分為 37.56/32.17,明顯優於其他模型。
表 9:事實驗證和文字蘊含兩類任務上的量化結果,結果以準確度(ACC)和BLEU/ROUGE來衡量;表中「Ver.」是「verification」的簡寫。
總的而言,研究團隊在各種任務維度上,評測了六大主流模型,研究結果表明目前的主流 LLMs 處理臨床任務時仍舊相當脆弱,會在多樣化的複雜臨床場景下產生嚴重的效能不足。
同時,實驗結果也展示出,透過在指令資料集中加入更多臨床任務文字,強化 LLM 與臨床實際適用的匹配程度,可以大大的加強 LLM 效能。
資料收集方法與訓練流程
本節將詳細介紹訓練過程,如圖 3b 所示。具體方法與之前的工作 MMedLM 和 PMC-LLaMA 相同,均透過在醫學相關的語料庫上進行進一步的自迴歸訓練可以為模型注入相應的醫學知識,從而使它們在不同的下游任務中表現得更好。
具體而言,研究團隊從多語言 LLM 基座模型(MMed-Llama 3)開始,利用來自 MedS-Ins 的指令微調資料對其進行進一步訓練。
指令微調的資料主要涉及兩個方面:
醫學過濾後的自然指令資料:首先從自然領域最大規模的指令資料集Super-NaturalInstructions中篩選出與醫療相關的任務。由於Super-NaturalInstructions更側重於通用領域的不同自然語言處理任務,因此對醫療領域的分類粒度相對較粗。
首先提取了 「醫療保健 」和 「醫學 」類別中的所有指令,然後在任務類別不變的情況下,手動為它們新增了更詳細的領域標籤。此外,許多通用領域的有組織指令微調資料集也涵蓋了一些醫療相關資料,例如LIMA和ShareGPT。
為了過濾出這些資料中的醫療部分,研究團隊使用了InsTag對每條指令的領域進行粗粒度分類。具體來說,InsTag是一種 LLM,專門用於標記不同的指令樣本。給定一個指令查詢,它將分析該指令屬於哪個領域和任務,在此基礎上篩選出標記為醫療保健、醫療或生物醫學的樣本。
最後,透過過濾一般領域的指令資料集,收集到 37 個任務,共計 75373 個樣本。
提示構造現有的 BioNLP 資料集:在現有資料集中有許多關於臨床場景中文字分析的優秀資料集。然而,由於大多數資料集的收集目的不同,它們不能直接用於訓練大型語言模型。然而,可以透過將這些現有的醫學 NLP 任務轉換成可用於訓練生成模型的格式,從而將它們加入到指令調整中。
具體來說,研究團隊以 MIMIC-IV-Note 為例。MIMIC-IV-Note 提供了高質量的結構化報告,其中既有發現也有也有結論,發現到結論的生成被視為經典的臨床文字總結任務。首先手動編寫提示來定義任務,例如:「鑑於超聲成像診斷的詳細結果,用幾個詞概括發現。」 考慮到指令調整的多樣性需求,研究團隊要求5個人獨立地用3種不同的提示描述某項任務。
這樣,每個任務就有了 15 條自由文字提示,保證了語義相似,但措辭和格式儘可能多樣化。然後,受 Self-Instruct 的啟發,將這些人工編寫的指令作為種子指令,並要求 GPT-4 根據其進行改寫,從而獲得更多的多樣化指令。
透過上述過程,將額外的 85 個任務提示為統一的自由問答格式,再結合過濾後的資料,得到了總計 1350 萬個高質量樣本,涵蓋 122 個任務,稱為 MedS-Ins,並透過指令微調,訓練了一個全新的 8B 尺寸的醫學 LLM,結果表明該方法顯著提高了臨床任務的效能。
在指令微調中,研究團隊重點考慮了兩種指令形式:
零樣本提示:在這裡,任務的指令包含一些語義任務描述作為提示,因此要求模型根據其內部模型知識直接回答問題。在收集到的 MedS-Ins 中,每個任務的 「定義 」內容都可以自然地用作零點指令輸入。由於涵蓋了各種不同的醫療任務定義,該模型有望學習對各種任務描述的語義理解。
少樣本提示:在這裡,指令包含了少量的示例,這些示例允許模型從上下文中學習到任務的大致需求。只需從同一任務的訓練集中隨機抽取其他案例,並使用以下簡單模板對其進行組織,即可獲得此類指令:
Case1: Input: {CASE1_INPUT}, Output: {CASE1_OUTPUT} ... CaseN: Input: {CASEN_INPUT}, Output: {CASEN_OUTPUT} {INSTRUCTION} Please learn from the few-shot cases to see what content you have to output. Input: {INPUT}
討論
總體而言,本文做出了幾項重要貢獻:
綜合評估基準--MedS-Bench
醫學 LLM 的開發在很大程度上依賴於多選題回答(MCQA)的基準測試。然而,這種狹隘的評估框架回忽略 LLM 在各種複雜臨床場景下中真實的能力表現。
因此,在這項工作中,研究團隊引入了 MedS-Bench,這是一個綜合基準,旨在評估閉源和開源 LLM 在各種臨床任務中的效能,包括那些需要從模型預訓練語料中回憶事實或從給定上下文中進行推理的任務。
研究結果表明,雖然現有的 LLM 在 MCQA 基準測試中表現優異,但它們卻很難與臨床實踐保持一致,尤其是在治療推薦和解釋等任務中。這一發現凸顯了進一步開發適配於更廣泛臨床和醫學場景的醫學大語言模型的必要性。
綜合指令調整資料集--MedS-Ins
研究團隊從現有的 BioNLP 資料集中廣泛獲取資料,並將這些樣本轉換為統一格式,同時採用半自動化的提示策略,構建開發了 MedS-Ins--一種新型的醫療指令調整資料集。以往的指令微調資料集的工作主要集中在從日常對話、考試或學術論文中構建問答對,往往忽略了從實際臨床實踐中生成的文字。
相比之下,MedS-Ins 整合了更廣泛的醫學文字資源,包括 5 個主要文字領域和 19 個任務類別。這種對資料組成的系統性分析有利於使用者理解 LLM 的臨床應用邊界。
醫學大語言模型--MMedIns-Llama 3
在模型方面,研究團隊證明了透過在MedS-Ins上進行指令微調訓練,可以顯著提高開源醫學LLM與臨床需求的一致性。
需要強調的是,最終模型MMedIns-Llama 3更多是一個「概念驗證」模型,它採用了8B的中等引數規模,最終的模型對各種臨床任務展現出了深刻的理解,並能透過零次或少量的指令提示靈活適應多種醫療場景,而無需進一步的特定任務訓練。
結果表明,MMedIns-Llama 3在特定臨床任務型別上優於現有的LLM、 包括 GPT-4、Claude-3.5等。
現有的侷限性
在此,研究團隊也要強調了本文的侷限性以及未來可能的改進。
首先,MedS-Bench 目前只涵蓋了 11 項臨床任務、 這並不能完全涵蓋所有臨床場景的複雜性。此外,雖然評估了六種主流 LLM,但分析中仍然缺少部分最新的 LLM。為了解決這些侷限性,研究團隊計劃在發表本文的同時釋出一個醫學 LLM 的 Leaderboard,旨在鼓勵更多的研究人員一同不斷擴充套件和完善醫學 LLM 的綜合評估基準。透過在評估過程中納入更多來自不同文字源的任務類別,希望能更深入地瞭解醫學領域中 LLMs 的開發情況及使用邊界。
其次,儘管現在 MedS-Ins 包含了廣泛的醫療任務,但它仍然不完整,還是缺少某些實用的醫療場景。為了解決這個問題,研究團隊在 GitHub 上開源了所有收集到的資料和資源。由衷希望更多的臨床醫生或者研究學者可以一同維護擴張這個指令調整資料集,類似於通用領域中的 Super-NaturalInstructions。研究團隊在 GitHub 頁面上提供了詳細的上傳指南,同時將在論文的迭代更新中書面感謝每一位參與資料集更新的貢獻者。
第三,研究團隊計劃在 MedS-Bench 和 MedS-Ins 中加入更多語言,以支援開發更強大的多語言醫學 LLM。目前,儘管在 MedS-Bench 和 MedS-Ins 中包含了一些多語言任務,但這些資源主要以英語為中心。將其擴充套件到更廣泛的語言範圍將是一個很有前景的未來方向,以便確保醫療人工智慧的最新進展能夠公平地惠及更廣泛、更多樣的地區。
最後,研究團隊已將所有程式碼、資料和評估流程進行開源。希望這項工作能引導醫學 LLM 的開發更多的關注到如何將這些強大的語言模型與現實世界的臨床應用結合。