開源醫療大模型排行榜: 健康領域大模型基準測試

HuggingFace發表於2024-04-30

Image source: https://arxiv.org/pdf/2311.05112.pdf

多年來,大型語言模型 (LLMs) 已經發展成為一項具有巨大潛力,能夠徹底改變醫療行業各個方面的開創性技術。這些模型,如 GPT-3GPT-4Med-PaLM 2,在理解和生成類人文字方面表現出了卓越的能力,使它們成為處理複雜醫療任務和改善病人護理的寶貴工具。它們在多種醫療應用中顯示出巨大的前景,如醫療問答 (QA) 、對話系統和文字生成。此外,隨著電子健康記錄 (EHRs) 、醫學文獻和病人生成資料的指數級增長,LLMs 可以幫助醫療專業人員提取寶貴見解並做出明智的決策。

然而,儘管大型語言模型 (LLMs) 在醫療領域具有巨大的潛力,但仍存在一些重要且具體的挑戰需要解決。

當模型用於娛樂對話方面時,錯誤的影響很小; 然而,在醫療領域使用時,情況並非如此,錯誤的解釋和答案可能會對病人的護理和結果產生嚴重後果。語言模型提供的資訊的準確性和可靠性可能是生死攸關的問題,因為它可能影響醫療決策、診斷和治療計劃。

例如,當有人問 GPT-3 關於孕婦可以用什麼藥的問題時,GPT-3 錯誤地建議使用四環素,儘管它也正確地說明了四環素對胎兒有害,孕婦不應該用。如果真按照這個錯誤的建議去給孕婦用藥,可能會害得孩子將來骨頭長不好。

Image source: https://arxiv.org/pdf/2311.05112.pdf

要想在醫療領域用好這種大型語言模型,就得根據醫療行業的特點來設計和基準測試這些模型。因為醫療資料和應用有其特殊的地方,得考慮到這些。而且,開發方法來評估這些用於醫療的模型不只是為了研究,而是因為它們在現實醫療工作中用錯了可能會帶來風險,所以這事兒實際上很重要。

開源醫療大模型排行榜旨在透過提供一個標準化的平臺來評估和比較各種大型語言模型在多種醫療任務和資料集上的效能,以此來解決這些挑戰和限制。透過提供對每個模型的醫療知識和問答能力的全面評估,該排行榜促進了更有效、更可靠的醫療大模型的發展。

這個平臺使研究人員和從業者能夠識別不同方法的優勢和不足,推動該領域的進一步發展,並最終有助於改善患者的治療結果。

資料集、任務和評估設定

醫療大模型排行榜包含多種任務,並使用準確度作為其主要評估指標 (準確度衡量的是語言模型在各個醫療問答資料集中提供的正確答案的百分比)。

MedQA

MedQA 資料集包含來自美國醫學執照考試 (USMLE) 的多項選擇題。它覆蓋了廣泛的醫學知識,幷包括 11,450 個訓練集問題和 1,273 個測試集問題。每個問題有 4 或 5 個答案選項,該資料集旨在評估在美國獲得醫學執照所需的醫學知識和推理技能。

MedQA 問題

MedMCQA

MedMCQA 是一個大規模的多項選擇問答資料集,來源於印度的醫學入學考試 (AIIMS/NEET)。它涵蓋了 2400 個醫療領域主題和 21 個醫學科目,訓練集中有超過 187,000 個問題,測試集中有 6,100 個問題。每個問題有 4 個答案選項,並附有解釋。MedMCQA 評估模型的通用醫學知識和推理能力。

MedMCQA 問題

PubMedQA

PubMedQA 是一個封閉領域的問答資料集,每個問題都可以透過檢視相關上下文 ( PubMed 摘要) 來回答。它包含 1,000 個專家標註的問題 - 答案對。每個問題都附有 PubMed 摘要作為上下文,任務是提供基於摘要資訊的是/否/也許答案。該資料集分為 500 個訓練問題和 500 個測試問題。PubMedQA 評估模型理解和推理科學生物醫學文獻的能力。

PubMedQA 問題

MMLU 子集 (醫學和生物學)

MMLU 基準 (測量大規模多工語言理解) 包含來自各個領域多項選擇題。對於開源醫療大模型排行榜,我們關注與醫學知識最相關的子集:

  • 臨床知識: 265 個問題,評估臨床知識和決策技能。
  • 醫學遺傳學: 100 個問題,涵蓋醫學遺傳學相關主題。
  • 解剖學: 135 個問題,評估人體解剖學知識。
  • 專業醫學: 272 個問題,評估醫療專業人員所需的知識。
  • 大學生物學: 144 個問題,涵蓋大學水平的生物學概念。
  • 大學醫學: 173 個問題,評估大學水平的醫學知識。
    每個 MMLU 子集都包含有 4 個答案選項的多項選擇題,旨在評估模型對特定醫學和生物領域理解。

MMLU 問題

開源醫療大模型排行榜提供了一個魯棒的評估,衡量模型在醫學知識和推理各方面的表現。

洞察與分析

開源醫療大模型排行榜評估了各種大型語言模型 (LLMs) 在一系列醫療問答任務上的表現。以下是我們的一些關鍵發現:

  • 商業模型如 GPT-4-base 和 Med-PaLM-2 在各個醫療資料集上始終獲得高準確度分數,展現了在不同醫療領域中的強勁效能。
  • 開源模型,如 Starling-LM-7Bgemma-7b,Mistral-7B-v0.1 和 Hermes-2-Pro-Mistral-7B,儘管引數量大約只有 70 億,但在某些資料集和任務上展現出了有競爭力的效能。
  • 商業和開源模型在理解和推理科學生物醫學文獻 (PubMedQA) 以及應用臨床知識和決策技能 (MMLU 臨床知識子集) 等任務上表現良好。

圖片來源: https://arxiv.org/abs/2402.07023

谷歌的模型 Gemini Pro 在多個醫療領域展現了強大的效能,特別是在生物統計學、細胞生物學和婦產科等資料密集型和程式性任務中表現尤為出色。然而,它在解剖學、心臟病學和皮膚病學等關鍵領域表現出中等至較低的效能,揭示了需要進一步改進以應用於更全面的醫學的差距。

Image source : https://arxiv.org/abs/2402.07023

提交你的模型以供評估

要在開源醫療大模型排行榜上提交你的模型進行評估,請按照以下步驟操作:

1. 將模型權重轉換為 Safetensors 格式

首先,將你的模型權重轉換為 safetensors 格式。Safetensors 是一種新的儲存權重的格式,載入和使用起來更安全、更快。將你的模型轉換為這種格式還將允許排行榜在主表中顯示你模型的引數數量。

2. 確保與 AutoClasses 相容

在提交模型之前,請確保你可以使用 Transformers 庫中的 AutoClasses 載入模型和分詞器。使用以下程式碼片段來測試相容性:

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained(MODEL_HUB_ID)
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")

如果在這一步失敗,請根據錯誤訊息在提交之前除錯你的模型。很可能你的模型上傳不當。

3. 將你的模型公開

確保你的模型可以公開訪問。排行榜無法評估私有模型或需要特殊訪問許可權的模型。

4. 遠端程式碼執行 (即將推出)

目前,開源醫療大模型排行榜不支援需要 use_remote_code=True 的模型。然而,排行榜團隊正在積極新增這個功能,敬請期待更新。

5. 透過排行榜網站提交你的模型

一旦你的模型轉換為 safetensors 格式,與 AutoClasses 相容,並且可以公開訪問,你就可以使用開源醫療大模型排行榜網站上的 “在此提交!” 皮膚進行評估。填寫所需資訊,如模型名稱、描述和任何附加細節,然後點選提交按鈕。
排行榜團隊將處理你的提交併評估你的模型在各個醫療問答資料集上的表現。評估完成後,你的模型的分數將被新增到排行榜中,你可以將它的效能與其他模型進行比較。

下一步是什麼?擴充套件開源醫療大模型排行榜

開源醫療大模型排行榜致力於擴充套件和適應,以滿足研究社群和醫療行業不斷變化的需求。重點領域包括:

  1. 透過與研究人員、醫療組織和行業合作伙伴的合作,納入更廣泛的醫療資料集,涵蓋醫療的各個方面,如放射學、病理學和基因組學。
  2. 透過探索準確性以外的其他效能衡量標準,如點對點得分和捕捉醫療應用獨特需求的領域特定指標,來增強評估指標和報告能力。
  3. 在這個方向上已經有一些工作正在進行中。如果你有興趣合作我們計劃提出的下一個基準,請加入我們的 Discord 社群 瞭解更多並參與其中。我們很樂意合作並進行頭腦風暴!

如果你對 AI 和醫療的交叉領域充滿熱情,為醫療領域構建模型,並且關心醫療大模型的安全和幻覺問題,我們邀請你加入我們在 Discord 上的活躍社群

致謝

致謝

特別感謝所有幫助實現這一目標的人,包括 Clémentine Fourrier 和 Hugging Face 團隊。我要感謝 Andreas Motzfeldt、Aryo Gema 和 Logesh Kumar Umapathi 在排行榜開發過程中提供的討論和反饋。衷心感謝愛丁堡大學的 Pasquale Minervini 教授提供的時間、技術協助和 GPU 支援。

關於開放生命科學 AI

開放生命科學 AI 是一個旨在徹底改變人工智慧在生命科學和醫療領域應用的專案。它作為一箇中心樞紐,列出了醫療模型、資料集、基準測試和跟蹤會議截止日期,促進在 AI 輔助醫療領域的合作、創新和進步。我們努力將開放生命科學 AI 建立為對 AI 和醫療交叉領域感興趣的任何人的首選目的地。我們為研究人員、臨床醫生、政策制定者和行業專家提供了一個平臺,以便進行對話、分享見解和探索該領域的最新發展。

OLSA logo

引用

如果你覺得我們的評估有用,請考慮引用我們的工作

醫療大模型排行榜

@misc{Medical-LLM Leaderboard,
author = {Ankit Pal, Pasquale Minervini, Andreas Geert Motzfeldt, Aryo Pradipta Gema and Beatrice Alex},
title = {openlifescienceai/open_medical_llm_leaderboard},
year = {2024},
publisher = {Hugging Face},
howpublished = "\url{https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard}"
}

英文原文: https://hf.co/blog/leaderboard-medicalllm
原文作者: Aaditya Ura (looking for PhD), Pasquale Minervini, Clémentine Fourrier
譯者: innovation64

相關文章