近年來,AI for Science 發展提速,不僅為科研領域帶來創新研究思路,同時也拓寬了 AI 的落地通路,為其提供了更多具有挑戰性的應用場景。在這個過程中,越來越多的 AI 領域研究人員開始關注醫療、材料、生物等傳統科研領域,探索其中的研究難點與行業挑戰。
上海交通大學長聘軌副教授謝偉迪深耕於計算機視覺領域,於 2022 年回國,投入到了醫學人工智慧的研究中。在 HyperAI超神經聯合出品的 COSCon’24 AI for Science 論壇中,謝偉迪教授以「Towards Developing Generalist Model For Healthcare」為題,從開源資料集構建、模型開發等多個角度分享了團隊的成果。
上海交通大學長聘軌副教授謝偉迪
HyperAI超神經在不違原意的前提下,對其深度分享進行了整理彙總,以下為演講精華實錄。
醫療人工智慧已是大勢所趨
醫療研究關乎每個人的生命健康,至關重要。同時,醫療資源不均衡的問題長久以來未被根治,所以我們希望能夠推進醫療普適化,幫助大家獲得高質量診療。
ChatGPT 或是近年來發布的其他大模型,都將醫療作為效能測試的主戰場。如下圖所示,在美國醫師執業資格考試 (United States Medical Licensing Examination) 中,2022 年前,大模型能夠達到 50 分的水平,彼時人類能達到 70 分,所以 AI 並沒有引起醫生的過多關注。
隨著 GPT 3.5 的釋出,其評分達到了 60.2,有了極大提升,而後 Google 釋出了 Med-PaLM 及其更新版本,最高得分達到了 86.5,如今的 GPT-4 能到 90 分。這樣的高效能表現與迭代速度讓醫生們開始重視 AI,現在很多醫學院都會開設一個新學科:智慧醫學。
同樣地,不僅醫學生要學習人工智慧,AI 專業的學生也可以在最後一年課程中學校醫學知識,哈佛大學等院校的 AI 專業已經設定了相關課程。
但從另一方面來看,Nature Medicine 等學術期刊的研究表明,大語言模型其實並不懂醫療。例如,大模型目前還不懂 ICD code(國際疾病分類系統中的診斷程式碼),也很難像醫生一樣根據患者的檢查結果及時提供下一步就醫指導。可以看到,大模型在醫療領域仍存在的諸多侷限性,我認為它永遠無法替代醫生,而我們團隊想做的是讓這些模型能夠更好地輔助醫生。
團隊初級目標:構建通用醫療人工智慧系統
我於 2022 年回國開始進行醫療人工智慧的相關研究,所以今天分享的主要是團隊近兩年來的成果。醫療行業涉獵廣泛,我們研發的模型不敢說通用,但是希望能夠覆蓋儘可能多的重要任務。
如下圖所示,在輸入端,我們希望能夠支援多種模態,例如影像、音訊、患者健康檔案等。輸入到多模態通用醫療模型 (Multi-modal Generalist Model for Medicine) 後,醫生可以與其進行互動。模型的輸出至少有 2 種形式,其一是視覺 (Visual),透過分割 (Segmentation)、檢測 (Detection) 等方式,找到病灶的位置。其二是文字 (Text),輸出診斷結果 (Diagnosis) 或報告 (Report)。
我個人是計算機視覺出身,據我觀察,視覺和醫療的一個很大區別在於,醫學、尤其是循證醫學領域的知識,大多都是從人類的經驗中總結而來,一位初學者如果能夠窮盡所有醫學書籍,至少能夠成為理論上的醫學專家,所以,在模型訓練過程中,也希望能夠將所有醫療知識注入其中。因為如果模型缺乏基礎的醫療知識,很難取得醫生及患者的信任。
所以,總結來看,我們團隊的初級目標就是構建一個多模態的通用醫療模型,並將醫學知識儘可能全面的注入其中。
最初,我們開始定義通用模型,逐漸發現構建一個像 GPT-4 一樣無所不能的醫療模型並不現實。因為醫院裡分佈了諸多科室,每個科室的任務也不同,通用模型很難覆蓋全部任務。所以我們選擇透過 Agent 的方式來實現。如下圖所示,中間的通用模型由多個子模型組成,而每個子模型本質上就是一個 Agent,最終以 Multi Agent 的形式來構建通用模型。
其優勢在於不同 Agent 能夠接受不同輸入,所以在模型的輸入端能夠更加複雜多樣化;多個 Agent 在一步一步處理不同任務的過程中也能夠形成思維鏈;輸出端也更加豐富,例如一個 Agent 就能夠完成 CT、MRI 等多類醫學影像分割;同時,還具備更好的可擴充套件性。
貢獻高質量開源資料集
圍繞構建多模態通用醫療模型的大目標,接下來我將從開源資料集、大語言模型、疾病診斷 Agent 等多個方面介紹團隊的成果。
首先是我們在開源資料集方面的貢獻。
醫療領域並不缺少資料集,但由於設計隱私問題,開放可用的高質量資料相對稀缺。作為一個學術團隊,我們希望能夠為行業貢獻更多優質的開源資料,所以我回國後就開始著手進行大規模醫療資料集的構建。
在文字方面,我們收集了超 3 萬本醫學書籍,包含 40 億 tokens;爬取了 PubMed Central (PMC) 中的所有醫學文獻,包含 480 萬篇論文、750 億 tokens;在網際網路上,收集了中文、英語、俄語、日語等 8 個語種的醫學書籍,並將其轉換為文字。
此外,我們還構建了醫療領域的 Super Instructions,兼顧任務多樣性,羅列了 124 項醫療任務,涉及 1,350 萬 samples。
文字資料比較容易獲取,但是 Vision-Language(影像-文字對)卻比較難取得。我們爬取了 Radiopaedia 網站上約 20 萬個案例,還收集了論文中的影像及其說明文字,以及從放射科的基礎報告中獲取的超 3 萬 volumes。
目前,我們的資料大部分都已經開源。
上圖右側展示的是其他公開資料集,例如 UK Biobank,我們付費購買了英國近 10 萬患者持續 10 年的資料;此外,Pathology Outlines 提供全面的病理學知識。
在 Grounding Data 方面,就是我剛剛提到的分割 (Segmentation) 和檢測 (Detection) 資料,我們將市面上能夠找到的近 120 個放射學影像公開資料集統一到一個標準下,從而得到了超 35,000 個 2D/3D 放射學掃描影像,覆蓋 MR、CT、PET、US 這 4 種模態,有 40 萬細顆粒度的標註,這些資料覆蓋了身體的 500 個器官。同時,我們也擴充了對於病灶的描述,並將這些資料集全部開源。
持續迭代,打造專業醫療大模型
語言模型 (Language Model)
只有高質量的開源資料集才能幫助學生、科研人員進行更好地模型訓練。接下來,我將介紹團隊在模型上的成果。
首先是語言模型,這是一個能將人類知識快速注入到模型中的一種方式。去年 4 月,我們推出了一個名為 PMC-LLaMA 的模型,相關研究以「Towards Building Open-source Language Models for Medicine」為題,發表於 JAMIA。
論文地址:
https://academic.oup.com/jamia/article/31/9/1833/7645318
這是我們研發的第一個開源醫療領域的大語言模型,將醫學資料和剛剛提到的論文資料全部訓到模型中,進行自迴歸式訓練,然後進行指令微調,將資料轉換為問答對。
耶魯大學研究人員在其論文中提到, PMC-LLaMA 是領域內最早推出的開源醫療大模型,後續也有很多研究人員將其當做 baseline,但是在我看來, PMC-LLaMA 與閉源模型還存在差距,所以我們後續也會持續迭代升級這個模型。
隨後,我們又在 Nature Communications 上發表一篇成果:「Towards Building Multilingual Language Models for Medicine」,推出了多語言醫療大模型,覆蓋英語、中文、日語、法語、俄語和西班牙語這 6 類語種,用 250 億醫療相關 tokens 進行訓練。由於現在缺乏統一的多語言標準測試集,所以我們還構建了一個相關的 benchmark,供大家進行測試。
點選檢視詳細報導:醫療領域基準測試超越Llama 3、接近GPT-4,上海交大團隊釋出多語言醫學大模型,覆蓋6國語言
在實踐中我們發現,隨著基座模型的升級,向其中注入醫療知識,所得到的醫療大模型效能也會有所提升。
上述所提到的任務大多是「選擇題」,但我們都知道,在醫生的實際工作中不可能只做選擇題,所以我們希望大語言模型嵌入到醫生工作流中也是以自由文字的形式。針對於此,我們在新的研究中,更加聚焦臨床任務,收集相關資料集,提升模型面向臨床的可擴充套件能力。
目前相關論文仍在稽核中。
視覺-語言模型 (Visual-language Model)
同樣地,我們也是醫療領域內比較早期開始進行視覺-語言模型研究的團隊。基於上述提到的資料,我們構建了 3 個開源資料集:
- 從 PubMed Central 收集到 160 萬對大型影像-標題配對資料,構建了 PMC-OA 資料集;
- 從 PMC-OA 中生成了 227,000 個醫學視覺問答對,構成了 PMC-VQA;
- 從 Radiopaedia 種收集了 53,000 個病例,48,000 個多影像-標題對,構建了 Rad3D 資料集。
基於這些資料集,我們結合已經完成訓練的語言模型,訓練了 3 個版本的視覺-語言模型:PMC-CLIP、MedVInT、RadFM。
PMC-CLIP 是我們在醫學人工智慧影像領域頂會 MICCAI 2023 上發表的一項成果,最終獲評「Young Scientist Publication Impact Award, Final List」,該獎項是在近 5 年的論文中評選出 3-7 篇獲獎論文。
RadFM (Radiology Foundation Model) 現在比較流行,很多研究人員用它做 baseline。在訓練過程中,我們是將文字-影像交織的形式輸入到模型中,能夠根據問題直接生成回答。
增強特定領域知識,提高模型效能
所謂的知識增強表徵學習 (Knowledge-enhanced Representation Learning),需要解決的就是如何將醫學知識注入到模型中,我們也圍繞這個挑戰進行了一系列研究。
首先要解決「知識」從哪兒來。一方面是醫學常識 (General Medical Knowledge),來源於網際網路,以及醫療領域最大的知識圖譜 UMLS 對外出售的相關論文和書籍;另一方面是特定領域知識 (Domain-specific Knowledge),例如病例、放射學影像、超聲等;同時還有關於解剖學的知識 (Anatomy Knowledge),都可以在一些網站中獲取,當然這裡尤其要注意的是版權問題,有些網站上的內容是不能用的。
得到這些「知識」之後,我們就能夠繪製一個知識圖譜,從而建立起疾病-疾病、藥物-藥物、蛋白質-蛋白質之間的關係,並且附帶具體的描述。
上圖左側是我們建立的病理知識圖譜 (Knowledge Graph) 和知識樹 (Knowledge Tree),主要針對癌症診斷,因為癌症的病發位置可能在人體的各個器官,同時也會劃分不同亞型,適合做成 Tree 的結構化形式。類似地,除了多模態病理學,我們還圍繞多模態放射學與多模態 X-ray 進行了相關研究。
下一步,就是將這些知識注入語言模型,讓模型記住圖譜及圖譜中各個點之間的關係。而一旦語言模型訓好,視覺模型只需要向語言模型對齊即可。
我們將成果與 Microsoft 和 Stanford 的相關成果進行了對比,結果顯示,增加了領域知識的模型,效能遠高於其他沒有領域知識的模型。
面向病理學,我們的論文「Knowledge-enhanced Visual-Language Pretraining for Computational Pathology」入選了機器學習頂會 ECCV 2024 (Oral)。在這項成果中,我們建立一個 knowledge tree,並將其注入模型訓練,然後將視覺與語言對齊。
更進一步,我們用同樣的方法構建了多模態放射學影像模型,成果以「Large-scale long-tailed disease diagnosis on radiology images」為題發表於 Nature Communications。該模型能夠直接根據患者的放射學影像輸出對應的病症。
總結來看,我們的工作實現了一個完整的流程——首先是構建了最大的放射學影像開源資料集,包含 20 萬影像、41,000 個患者的影像,覆蓋 930 種疾病等等;其次是構建了增強特定領域知識的多模態、多語言模型;最後還構建了相應的 benchmark。
關於謝偉迪教授
上海交通大學長聘軌副教授,國家(海外)高層次青年人才,上海市海外高層次人才計劃,上海市啟明星計劃獲得者,科技部科技創新 2030 —「新一代人工智慧」重大專案青年專案負責人,國家基金委面上專案負責人。
他博士畢業於牛津大學視覺幾何組 (Visual Geometry Group, VGG),師從 Professor Andrew Zisserman,Professor Alison Noble,是首批 Google-DeepMind 全額獎學金獲得者,China-Oxford Scholarship 獲得者,牛津大學工程系傑出獎獲得者。
主要研究領域為計算機視覺,醫學人工智慧,共發表論文超 60 篇,包括 CVPR,ICCV, NeurIPS, ICML, IJCV, Nature Communications 等,Google Scholar 累計引用超 12,500 餘次,多次獲得國際頂級會議研討會的最佳論文獎和最佳海報獎、最佳期刊論文獎,MICCAI Young Scientist Publication Impact Award Finalist;Nature Medicine,Nature Communications 特邀審稿人,計算機視覺和人工智慧領域的旗艦會議 CVPR,NeurIPS,ECCV 的領域主席。
- 個人主頁:
https://weidixie.github.io