基於Llama-3的OpenBioLLM-70B和8B:在醫療領域優於GPT-4

banq發表於2024-04-28

開源再次來襲: OpenBioLLM-Llama3-70B 和 8B 的釋出。這些模型在生物醫學領域超越了Openai 的 GPT-4、Google 的 Gemini、Meditron-70B、Google 的 Med-PaLM-1 和 Med-PaLM-2等行業巨頭,為其模型設定了新的最先進水平。尺寸。迄今為止最有能力的公開醫學領域大模型。

OpenBioLLM-70B 提供 SOTA 效能,而 OpenBioLLM-8B 型號甚至超越 GPT-3.5 和 Meditron-70B!
這些模型以 LLama-3 70B 和 8B 模型為基礎,經過嚴格的兩階段微調過程,並利用直接偏好最佳化 (DPO) 來實現最佳效能。

結果可在 Open Medical-L LM 排行榜上檢視:https ://huggingface.co/spaces/openlifescienceai/open\_medical\_llm\_leaderboard

在大約 4 個月的時間裡,我們與醫學專家合作,精心策劃了多樣化的定製資料集,以確保最高的質量。該資料集涵蓋 3000 個醫療保健主題和 10 多個醫學主題。

OpenBioLLM-70B 在 9 個不同的生物醫學資料集上表現出色,儘管與 GPT-4 和 Med-PaLM 相比引數數量較少,但其平均得分卻高達 86.06%。

您今天可以直接從 Huggingface 下載模型。

  • - 70B:https://huggingface.co/aaditya/OpenBioLLM-Llama3-70B
  • - 8B:https: //huggingface.co/aaditya/OpenBioLLM-Llama3-8B

以下是 OpenBioLLM-70B 和 8B 的頂級醫療用例:

1、總結臨床筆記:
OpenBioLLM 可以高效地分析和總結複雜的臨床記錄、EHR 資料和出院摘要,提取關鍵資訊並生成簡潔、結構化的摘要
https://preview.redd.it/toy2s0xc80xc1.png?width=2048&format=png&auto=webp&s=d291ebd12f7ff37e0627d70196279146a3682de4

2、回答醫療問題:
OpenBioLLM 可以為廣泛的醫學問題提供答案。
https://preview.redd.it/hio197bl80xc1.png?width=1080&format=png&auto=webp&s=a7fe187f9d8f2b9ac02866e55ad8b00be23f6b65

3、臨床實體識別
OpenBioLLM-70B 可以透過從非結構化臨床文字中識別和提取關鍵醫學概念(例如疾病、症狀、藥物、手術和解剖結構)來執行高階臨床實體識別。​
https://preview.redd.it/z3fsa4um80xc1.png?width=1080&format=png&auto=webp&s=b11b9c34fba09d560f2711307bcb9b62343cab31

4、醫療分類:
OpenBioLLM可以執行各種生物醫學分類任務,例如疾病預測、情感分析、醫療文件分類
https://preview.redd.it/jbbxqmvo80xc1.png?width=1080&format=png&auto=webp&s=86b9bccc054505e705116c2604bfac557b2c943b

5、去識別化:
OpenBioLLM 可以檢測並刪除醫療記錄中的個人身份資訊 (PII),確保患者隱私並遵守 HIPAA 等資料保護法規。
https://preview.redd.it/ln94fqiq80xc1.png?width=1080&format=png&auto=webp&s=f900a5aca0d12461745e7dca3a092cd977be0f92

6、生物標誌物提取:
https://preview.redd.it/mgpj8kzr80xc1.png?width=1080&format=png&auto=webp&s=fd2336df5842fc96d4bea32c79863f2140b38b14

此次釋出只是一個開始!在接下來的幾個月裡,我們將推出

  • - 擴大醫療領域覆蓋範圍,
  • - 更長的上下文視窗,
  • - 更好的基準,以及
  • - 多模式功能。

更多詳細資訊請訪問:https://twitter.com/aadityaura/status/1783662626901528803

網友測試:
1、我現在在醫學院,這個模型太棒了!我在研究骨骼和關節時使用它,答案質量非常好。這無疑是我迄今為止遇到的最好的生物醫學模型。我正在使用 AMD 7965WX CPU(GPU 中載入 64 層)的 2xRTX4090 上執行 70B 模型(Q5_K_M GGUF Quant),每秒獲得大約 7-8 個令牌。

2、這真的比 meditron 更好嗎?
Meditron 繼續進行醫學領域的預訓練和廣泛的全面微調(不僅是 LORA)...顯然它仍然基於 llama2...我使用了它(我是一名醫學生),它確實比 llama 2 更好,我感覺持續的預訓練確實給模型增加了新的知識,而不僅僅是改變了語氣。
除了基準之外,該模型的表現如何?假設使用微調來新增新知識確實很困難,並且使用 lora 新增知識幾乎是不可能的……我不知道 DPO 階段有什麼幫助……

3、我嘗試了具有推薦溫度和聊天模板的 Q6K 模型,但輸出很差。我問的每個問題都得到了回答,就好像我問了一個完全不同的問題一樣。順便說一句,Llama 3 Instruct 回答得很好。

4、我在70B型號上得到的答案非常好,而且絕對不是簡短的一句話答案。到目前為止,我主要關注骨組織學和關節學,但所有答案都詳細、準確且寫得很好。也許是你使用的量化工具,或者 8B 模型不太好(我根本沒有嘗試過 8B)。

5、這真太了不起了!經過微調的 llama3 在醫療領域表現出色。
 

相關文章