編輯 | 白菜葉
OpenAI o1 的突破凸顯了透過增強推理能力來提高自然語言大模型(LLM)的應用潛力。然而,大多數推理研究都集中在數學任務上,而醫學等領域尚未得到充分探索。
醫學領域雖然不同於數學,但鑑於醫療保健的高標準,它也需要強大的推理能力來提供可靠的答案。然而,與數學不同,驗證醫學推理具有挑戰性。
為了解決這個問題,香港中文大學,深圳市大資料研究院的研究人員提出了可驗證的醫學問題,使用醫學驗證器來檢查模型輸出的正確性。
同時,該團隊推出了 HuatuoGPT-o1,這是一款能夠進行復雜推理的醫學 LLM,僅使用 40K 個可驗證問題,其表現就優於醫學專用基線。
該研究以「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」為題,於 2024 年 12 月 25 日釋出在 arXiv 預印平臺。
類似 o1 的方法在醫學等專業領域的應用仍未得到充分探索。醫療任務通常涉及複雜的推理。
在現實世界的醫療診斷或決策中,醫生往往需要仔細斟酌。這一關乎生命的重要領域要求縝密的思考,確保得出更為可靠的結論。
並且,醫療領域具有獨特的優勢:與一般領域相比,醫療領域的範圍通常較窄,且更易於驗證。此外,醫療推理與金融、法律、教育和安全等領域的實際應用密切相關,使得該領域的進展能夠輕鬆地遷移到其他領域。
HuatuoGPT-o1
儘管存在這些優勢,醫學推理中的一個關鍵挑戰在於驗證其思維過程,這一過程通常缺乏清晰的步驟。受數學問題透過其結果進行驗證的啟發,研究人員從具有挑戰性的閉卷醫學考試題目中重構了 40,000 個可驗證的醫學問題。
這些可驗證問題的特點是開放式且具有唯一的客觀真實答案,使得大型語言模型(LLM)驗證器能夠檢查解決方案的正確性。
圖示:利用具有挑戰性的閉卷考試題目構建可驗證醫學問題;驗證器將模型的答案與真實答案進行對比檢查。(來源:論文)
這為推進醫學複雜推理提供了一種方法:
第一階段:學習複雜推理
該團隊透過基於驗證器反饋(正確或錯誤)的策略搜尋構建複雜推理軌跡。大型語言模型(LLM)首先初始化一個思維鏈(CoT)。如果驗證器拒絕當前的思維鏈,模型將透過應用從回溯、探索新路徑、驗證和修正中取樣的策略來擴充套件思維鏈,直到提供正確答案。成功的推理軌跡隨後用於微調大型語言模型,使其能夠發展出體現迭代反思的複雜推理能力。
第二階段:透過強化學習增強複雜推理
在掌握複雜推理技能後,強化學習(RL)進一步最佳化這一能力。具體而言,驗證器提供的稀疏獎勵透過近端策略最佳化(PPO)演算法引導模型進行自我改進。
透過這種方法,研究人員提出了 HuatuoGPT-o1,這是一種能夠生成長思維鏈(CoT)以識別錯誤、嘗試不同策略並最佳化答案的醫學大型語言模型(LLM)。
HuatuoGPT-o1(僅使用 40K 資料點)在 8B 模型上實現了醫學基準測試 8.5 分的提升。此外,70B 版本的 HuatuoGPT-o1 在多個醫學基準測試中優於其他開源通用及醫學專用 LLM。
圖示:醫學基準測試的主要結果。(來源:論文)
該研究表明,與標準方法或非思維鏈方法相比,複雜推理能夠增強醫學問題解決能力並提升強化學習(RL)效能。
總之,該研究顯著提升了大型語言模型的醫學推理能力。實驗表明,複雜推理能夠顯著提升醫學問題解決能力,並從強化學習中明顯受益。
在中醫場景中的額外驗證進一步證明了該方法在其他領域的適應性。研究人員相信,該方法能夠超越數學領域,增強特定領域的推理能力,能夠激發醫學和其他專業領域的推理進步。
模型地址:https://github.com/FreedomIntelligence/HuatuoGPT-o1
論文連結:https://arxiv.org/abs/2412.18925
相關內容:https://x.com/_akhaliq/status/1873572891092283692