編輯 | 蘿蔔皮
開源、多語言醫學語言模型的開發可使來自不同地區的廣泛、語言多樣化的受眾受益。
為了推動這一領域的發展,上海交通大學的研究團隊構建了一個多語言醫學語料庫,包含約 255 億個 token,涵蓋 6 種主要語言,稱為 MMedC,可實現一般 LLM 的自迴歸領域自適應。
同時,為了監測多語言醫學 LLM 的發展,研究人員還提出了一個具有合理性的多語言醫學多項選擇題答疑基準,稱為 MMedBench。
並且,團隊在基準上評估了許多開源大型語言模型(LLM),以及在 MMedC 上進一步進行自迴歸訓練的模型。
他們的最終模型 MMed-Llama 3 僅有 8B 個引數,在 MMedBench 和英語基準上都比所有其他開源模型取得了優異的效能,甚至可以與 GPT-4 相媲美。
該研究以「Towards building multilingual language model for medicine」為題,於 2024 年 9 月 27 日釋出在《Nature Communications》。
在近期的文獻中,大型語言模型(LLM)在醫療保健領域表現出巨大的前景,例如,GPT-4 和 MedPalm-2 等閉源模型表現出色,併成功透過了美國醫師執照考試(USMLE)。
同時,Llama 2 等開源模型也促進了 MEDITRON、PMC-LLaMA、MedAlpaca 和 ChatDoctors 等醫學專用語言模型的發展,逐漸縮小了與閉源同行的效能差距。
雖然取得了些許進步,但這些複雜的醫學語言模型主要側重於英語應用,限制了它們的潛在影響力,使其無法惠及更廣泛、語言多樣化的受眾。
一個大規模多語言醫學語料庫
在最新的研究中,上海交通大學的研究團隊開發了一個大規模多語言醫學語料庫 (MMedC),收集了六種主要語言(英語、中文、日語、法語、俄語和西班牙語)中超過 255 億個與醫學相關的 token。
這個多樣化的資料集來自四個不同的來源:
(i)研究人員設計了一條自動化管線,從廣泛的多語言語料庫中篩選出與醫學相關的內容,確保資料集的重點和相關性;
(ii)該團隊整理了大量各種語言的醫學教科書,並透過精心設計的預處理將它們轉換成文字,例如光學字元識別 (OCR)、啟發式資料過濾等;
(iii)為了保證醫學知識的廣泛涵蓋,研究人員整合了一些開源醫學網站的文字,以權威、全面的醫學資訊豐富他們的語料庫;
(iv)還整合了許多現有的小型醫學語料庫資料集,進一步增強了語料庫的廣度和深度。
研究人員表示,MMedC 是第一個專門針對多語言醫學領域構建語料庫的嘗試。
一套新基準
至於新基準,該團隊首先彙總 MMedC 上現有的六種語言的醫學多項選擇題 QA 資料集。研究人員使用 GPT-4 進一步增強這些資料集的合理性內容,透過支援正確答案的解釋來豐富資料集。
這些資料集涵蓋了六種語言的 53,566 個 QA 對,獨特地同時提供多項選擇題 QA 和伴隨的合理性推理。這個廣泛的集合涵蓋了 21 個醫學領域,包括但不限於內科、生物化學、藥理學和精神病學等,稱為多語言醫學基準 (MMedBench)。
圖示:MMedBench 上的統計結果。(來源:論文)
研究人員將其分為 45,048 個訓練對和 8518 個測試對。訓練拆分使得在特定領域持續訓練後可以對 LLM 進行微調。他們利用包含 8518 個 QA 對的整個測試集來評估多項選擇題回答的準確性。
為了進一步檢驗模型的推理能力,研究人員選擇了 1136 個 QA 對的子集,每個 QA 對都附有手動驗證的合理句子,作為更專業的推理評估基準。
全面的基準測試
在評估階段,研究人員對 11 個現有的具有多語言支援的 LLM 進行了全面的基準測試,包括 GPT-3.5、GPT-4、Gemini-1.0 pro、BLOOM、InternLM、InternLM 2、MedAlpaca、ChatDoctor、PMC-LLaMA、Mistral、BioMistral、MEDITRON、Llama 2 和 Llama 3,以及使用 MMedC 進一步訓練的 LLM。
這些模型在三種不同的設定下進行了評估:零樣本、引數高效微調 (PEFT) 和完全微調。
鑑於評估理論質量的複雜性(需要評估長句的語義完整性),除了利用主流的自動化指標外,該團隊還在分析中加入了人工評分。
這種雙重方法不僅可以全面衡量每個模型的效能,還使他們能夠仔細研究自動化指標與人類判斷之間的相關性。透過這種分析,研究人員可以確定最可靠的指標以進行擴充套件比較,從而豐富評估大型語言模型推理能力的方法。
最佳化措施都是有效的
圖示:模型評級的比較分析。(來源:論文)
首先,MMedC 的自迴歸訓練是有效的。結果顯示,所有 MMedLM、MMedLM 2 和 MMed-Llama 3 都比其原始基線模型(即 InternLM、InternLM 2 和 Llama 3)有顯著的改進,凸顯了 MMedC 在提供有針對性的特定領域知識方面的有效性。
此外,觀察到的效能提升表明,現有 LLM 的預訓練語料庫在面對多語言醫學背景時存在侷限性。該研究結果強調了 MMedC 等專業語料庫彌補這些差距的必要性。
其次,納入更多資料通常是有效的。在探索不同資料來源如何影響語言模型效能結果時,納入高質量的多語言資料 (HQ-Data) 可以顯著提高效能。
此外,研究人員觀察到,即便與更明確的醫學相關來源相比,從一般語言語料庫中過濾的資料質量相對較低,但整合這些資料也是有效的。這一改進凸顯了在 MMedC 中整合各種資料型別的價值。
第三,將理論融入微調是有效的。在 MMedBench(訓練集)上進行微調時,將理論資料與多項選擇預測相結合可以提高特定任務的效能。在監督微調階段將正確答案與其理由結合起來,不僅能讓 LLM 輸出理由句子,而且在 MMedBench(測試集)上的多項選擇題準確率也顯著提高:InternLM 提高了 2.33%,InternLM 2 提高了 2.42%,Llama 3 提高了 4.07%。
第四,強大的基礎 LLM 可以提高最終結果。在 MMedBench 上,研究人員注意到更強大的 LLM 主體通常會提高多語言醫療問答的最終結果。隨著更高階的 LLM 釋出,它們的預訓練語料庫已大大擴充套件,逐漸涵蓋更多語言。
儘管非英語語言只佔總數的一小部分,但整體語料庫的龐大數量使模型能夠在訓練期間遇到大量的多語言文字,從而顯著增強了它們的多語言能力,從 Llama 2、Mistral 和 Llama 3 之間的比較可以看出,後者的模型表現都比前者好得多。
這種通用多語言能力的增強也可以提高醫學領域適應後的表現(MMedLM vs. MMedLM 2 vs. MMed-Llama 3)。這一觀察結果表明,研究人員應該更加註重建立醫學開源資料集,以便未來的工作能夠更好地利用通用 LLM 的快速改進。
圖示:整體概述。(來源:論文)
潛在意義
該研究促進了通用醫學人工智慧 (GMAI) 的發展。GMAI 致力於開發一種多模態人工智慧模型,可直接應用於廣泛的醫療保健場景,其中 LLM 通常用作人機介面。
用多語言的 LLM 取代以英語為中心的 LLM 可以充分利用全球資料來源,從而擴充套件可用的多模態訓練資料,並提高其他模態的表示質量。
改進檢索增強生成。幻覺被認為是現有 LLM 的一個主要問題,尤其是在醫學領域。一個潛在的解決方案是開發檢索增強架構。
主要動機是,透過從額外的知識庫中檢索事實,LLM 生成的輸出可以避免大多數致命的事實錯誤。然而,到目前為止,大多數研究都是用英語進行的,這極大地限制了檢索增強方法利用其他語言的醫學知識。開發多語言 LLM 可以有益於檢索過程,極大地豐富潛在的可用知識庫。
對臨床的影響
消除語言障礙。在許多醫療保健系統中,患者和醫療服務提供者之間的語言障礙會阻礙有效溝通,導致誤解、誤診和護理不足,導致大多數人無法獲得高質量的醫療資源。多語言醫學 LLM 可以促進實時翻譯和口譯,確保患者能夠有效地傳達他們的症狀並瞭解他們的診斷和治療方案。
降低文化和法律敏感性。多語言醫學 LLM 還可以接受訓練,以識別和解決醫療保健互動中不同國家的文化或法律細微差別和敏感性。瞭解文化背景和法律差異可以大大增強對醫學 LLM 的信任,從而帶來更好的健康結果。
幫助醫學教育。這些模型還可以針對教育進行定製,特別是在缺乏醫學教育者或資源的地區。透過提供多種語言的教育材料和模擬,醫學多語言 LLM 可以幫助標準化醫學訓練並確保全球一致的護理質量。
論文連結:https://www.nature.com/articles/s41467-024-52417-z