OpenAI o1 在醫學領域的初步研究,我們離 AI 醫生更近了嗎?

ScienceAI發表於2024-09-27
圖片

編輯 | 紫羅

語言模型 (LLM) 在各個領域和任務中都表現出了卓越的能力,突破了我們在學習和認知方面的知識界限。

最新模型 OpenAI 的 o1 脫穎而出,成為第一個使用思維鏈 (CoT) 技術和強化學習的 LLM。

雖然 o1 在一般任務中表現良好,但它在醫學等專業領域的表現仍然未知。目前醫學 LLM 的基準通常集中在一定範圍內,例如知識、推理或安全,這使得在複雜的醫學任務中對這些模型進行全面評估變得複雜。

來自加州大學聖克魯斯分校、愛丁堡大學和美國國立衛生研究院的研究人員評估了 OpenAI 的 o1 模型在醫學任務中的表現,評估了 37 個醫學資料集(包括兩個新的 QA 基準)的理解、推理和多語言性。

分析表明,LLM 的推理能力增強可能會有利於其理解各種醫療指令和推理複雜臨床場景的能力。值得注意的是,在 19 個資料集和兩個新建立的複雜 QA 場景中,o1 的準確率平均比之前的 GPT-4 高出 6.2% 和 6.6%。

相關研究以《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》為題,釋出在預印平臺 arXiv 上。

圖片

論文連結:https://arxiv.org/abs/2409.15277

LLM 透過下一個 token 預測和指令微調在語言理解任務中取得了顯著進展。然而,它們經常在複雜的邏輯推理任務中掙扎。

為了克服這個問題,研究人員引入了 CoT 提示,引導模型模擬人類的推理過程。OpenAI 的 o1 模型經過大量 CoT 資料和強化學習訓練,旨在增強推理能力。像 GPT-4 這樣的 LLM 在醫學領域表現出色,但領域特定的微調對於可靠的臨床應用是必要的。

該研究調查了 o1 在臨床應用方面的潛力,顯示了理解、推理和多語言能力的提高。

評估流程側重於模型能力的三個關鍵方面:理解、推理和多語言性,以滿足臨床需求。在 37 個資料集中進行測試,涵蓋概念識別、總結、問答和臨床決策等任務。三種提示策略——直接提示、思維鏈和少量學習——指導模型。

圖片

圖示:評估流程。(來源:論文)

準確度、F1 分數、BLEU、ROUGE、AlignScore 和 Mauve 等指標透過將生成的響應與真實資料進行比較來評估模型效能。這些指標衡量準確度、響應相似性、事實一致性以及與人工書寫文字的一致性,確保全面評估。

實驗將 o1 與 GPT-3.5、GPT-4、MEDITRON-70B 和 Llama3-8B 等模型在醫療資料集中進行了比較。

o1 在概念識別、總結和醫學計算等臨床任務中表現出色,優於 GPT-4 和 GPT-3.5。它在 NEJMQA 和 LancetQA 等基準上實現了顯著的準確度提升,分別超過 GPT-4 8.9% 和 27.1%。

圖片

o1 在 BC4Chem 等任務中也取得了更高的 F1 和準確度分數,突顯了其卓越的醫學知識和推理能力,並將其定位為現實世界臨床應用的有前途的工具。

o1 模型在通用 NLP 和醫學領域取得了重大進展,但也存在一些缺點。其解碼時間較長(是 GPT-4 的兩倍多,是 GPT-3.5 的九倍),可能會導致複雜任務的延遲。

此外,o1 在不同任務中的表現不一致,在概念識別等簡單任務中表現不佳。BLEU 和 ROUGE 等傳統指標可能無法充分評估其輸出,尤其是在專業醫學領域。

未來的評估需要改進指標和提示技術,以更好地捕捉其能力並減輕幻覺和事實準確性等限制。

參考內容:https://www.marktechpost.com/2024/09/26/assessing-openais-o1-llm-in-medicine-understanding-enhanced-reasoning-in-clinical-contexts/

相關文章