編輯 | ScienceAI
近期,生成式人工智慧革命為準確感知、分析病理學圖片中的海量資訊提供了強有力的解決方案。與此同時,多模態生成式人工智慧技術的突破更將助力從時空多尺度理解數字病理學圖片並與其他生物醫學模態相融合,從而更好刻畫患者疾病演變、發展過程,協助醫生進行臨床診斷和治療。
然而,由於數字病理學圖片的大規模、高畫素、特徵複雜等特點,從計算角度高效處理和理解其中的複雜模式十分具有挑戰性。每張全切片數字化轉型之後將包含數十億畫素,其面積達到自然影像的十幾萬倍,應用現有的計算機視覺模型難度較大。傳統的視覺模型,如Vision Transformer,其計算複雜度隨著輸入圖片的大小的增加快速上升。同時,臨床醫學資料具有跨尺度、多模態和高噪聲等特點,而現有的病理學模型大多基於標準公開資料集,依然同現實世界的應用具有不小的距離。
為此,來自微軟研究院、美國Providence的醫療網路和華盛頓大學的研究人員,共同提出了首個全切片尺度的數字病理學模型GigaPath。
GigaPath模型採取兩階段的級聯結構,和微軟研究院近期開發的LongNet架構,高效解決了十億畫素級別影像的處理和理解問題。Providence的研究人員收集到旗下28家美國醫院的3萬病人授權的17萬張全切片數字病理學圖片,共計13億張病理學圖塊。微軟、華盛頓大學和Providence的研究人員合作將GigaPath在這些真實世界資料上進行了大規模預訓練。
實驗結果表明,GigaPath在26個任務,包含9個癌症分型和17項病理組學任務,在其中25項任務取得領先效果,在18項任務中顯著高於現有方法。
研究人員相信,該研究展示了全切片尺度層面的建模和大規模真實世界資料的預訓練極其重要,同時,GigaPath也將為更加先進的癌症護理和臨床發現提供全新可能。
值得一提的是,GigaPath的模型和程式碼已經開源,研究人員歡迎世界各地的研究者一道探索和使用GigaPath。
相關研究以《A whole-slide foundation model for digital pathology from real-world data》為題,於 5 月 22 日釋出在《Nature》上。
方法
GigaPath採用兩階段課程學習,包括使用DINOv2的圖塊級預訓練和使用帶有 LongNet 的掩碼自動編碼器的全切片級預訓練(見圖1)。DINOv2是一種標準的自監督方法,在訓練教師和學生Vision Transformer時結合了對比損失和掩碼重建損失。然而,由於自注意力自身帶來的計算挑戰,其應用僅限於小影像,例如256 × 256圖塊。
對於全切片級建模,我們將擴張注意力(Dilated Attention)從LongNet (https://arxiv.org/abs/2307.02486) 應用於數字病理學(見圖2)。
為了處理整張全切片的長影像圖塊序列,我們引入了一系列遞增的尺寸,用於將圖塊序列細分為給定尺寸的片段。對於較大的片段,LongNet引入稀疏注意力,稀疏性與片段長度成正比,從而抵消平方增長。最大的尺寸片段將覆蓋整個全切片。這能夠以系統的方式捕獲遠端依賴關係,同時保持計算的易處理性(上下文長度呈線性)。
主要實驗結果
在癌症分型診斷方面,任務目標定位於根據病理切片對細粒度亞型進行分類。例如,對於卵巢癌,模型需要區分六種亞型:透明細胞卵巢癌、子宮內膜樣卵巢癌、高階別漿液性卵巢癌、低階別漿液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。
GigaPath在所有九項癌症分型任務中均獲得領先效果,在其中六項癌症類別分型中準確率提升具有顯著性。對於六種癌症(乳腺癌、腎癌、肝癌、腦癌、卵巢癌、中樞神經系統癌),GigaPath的AUROC達到90%或更高。這對於癌症診斷和預後等精準健康領域的下游應用來說是個好的開始。
在病理組學任務中,任務目標定位於僅根據全切片影像預測腫瘤是否表現出特定的臨床相關基因突變。該預測任務有助於揭示組織形態和遺傳途徑之間難以被人類察覺的豐富聯絡。除了一些已知特定癌症型別和基因突變對之外,全切片影像中存在多少基因突變訊號仍是一個尚無答案的問題。此外,在一些實驗中,研究人員考慮了泛癌場景,即在所有癌症型別和非常多樣化的腫瘤形態中識別基因突變的通用訊號。
在如此具有挑戰性的場景中,GigaPath在17項任務中的16項中再次達到了領先效能,並在其中12項任務中顯著優於第二名。Gigapath可以在整個全切片水平上提取遺傳相關的泛癌和亞型特異性形態特徵,為真實世界場景下的複雜未來研究方向開啟了大門。
此外,研究者透過引入病理報告進一步證明了GigaPath在多模態視覺語言任務上的潛力。此前,關於病理視覺語言預訓練的工作往往集中在圖塊級別的小影像上。
相反,GigaPath探索全切片級別的視覺語言預訓練。透過繼續對病理學報告對進行預訓練,利用報告語義來對齊病理學影像的隱空間表徵。這比傳統的視覺語言預訓練更具挑戰性,在不利用任何單個影像圖塊和文字片段之間的細粒度對齊資訊的情況下,GigaPath在標準視覺語言任務中顯著優於三種最先進的病理學視覺語言模型。
總結
透過豐富全面的實驗,研究人員證明了GigaPath的相關研究工作是全切片層面預訓練和多模態視覺語言建模層面的良好實踐。
值得一提的是,儘管GigaPath在多工上取得了領先效果,在某些特定任務層面依然具有較大的進步空間。同時,儘管研究人員探索了視覺語言多模態任務,但在朝向搭建病理學層面的多模態對話助手的道路上,依然有很多具體問題需要探索。
作者資訊
GigaPath是橫跨微軟研究院、Providence醫療系統和華盛頓大學保羅艾倫計算機學院的合作專案。其中,來自微軟研究院和華盛頓大學的二年級博士生許涵文和來自微軟研究院的首席研究員Naoto Usuyama為論文共同第一作者。來自微軟研究院Health Futures團隊的General Manager Dr. Hoifung Poon (潘海峰), 華盛頓大學的王晟教授,以及Providence的Dr. Carlo Bifulco為論文的共同通訊作者。
許涵文:華盛頓大學二年級在讀博士生。研究方向為AI和醫學交叉。科研成果發表於Nature, Nature Communications, Nature Machine Intelligence, AAAI等。曾擔任Nature Communications, Nature Computational Science等子刊審稿人。
王晟:華盛頓大學計算機系助理教授,研究方向專注於AI和醫學交叉。科研成果發表於Nature, Science, Nature Biotechnology, Nature Machine Intelligence and The Lancet Oncology, 研究轉化成果被Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine,Providence等多個醫療機構使用。
潘海峰:微軟研究院Health Futures General Manager,研究方向為生成式AI基礎研究以及精準醫療應用。在多個AI頂會獲最佳論文獎,在HuggingFace上釋出的開源生物醫學大模型總下載量達數千萬次,部分研究成果開始在合作的醫療機構和製藥公司中轉化為應用。