ECCV2024 | 哈佛團隊開發FairDomain,實現跨域醫學影像分割和分類中的公平性

ScienceAI發表於2024-08-01

圖片

編輯 | ScienceAI

作者 | Yu Tian 團隊

在人工智慧(AI),特別是醫療AI領域中,解決公平性問題對於確保公平的醫療結果至關重要。

最近,增強公平性的努力引入了新的方法和資料集。然而,在域轉移的背景下,公平性問題幾乎沒有得到探索,儘管診所常常依賴不同的成像技術(例如,不同的視網膜成像方式)進行患者診斷。

本文提出了FairDomain,這是首次系統性研究演算法在域轉移下的公平性,我們測試了最先進的域適應(DA)和域泛化(DG)演算法,用於醫學影像分割和分類任務,旨在瞭解bias如何在不同域之間轉移。

我們還提出了一種新的即插即用的公平身份注意力(FIA)模組,透過使用自注意力機制,根據人口統計屬性調整特徵重要性,以提高各種DA和DG演算法的公平性。

此外,我們還整理並公開了第一個關注公平性的domain-shift資料集,該資料集包含同一患者群體的兩種配對成像方式的醫學分割和分類任務,以嚴格評估域轉移場景下的公平性。排除源域和目標域之間人口分佈差異的混淆影響,將使域轉移模型效能的量化更加清晰。

我們的廣泛評估表明,所提出的FIA在所有域轉移任務(即DA和DG)中顯著增強了模型在不同人口統計特徵下的公平性和效能,在分割和分類任務中均優於現有方法。

在這裡分享ECCV 2024中稿的工作「FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

圖片

文章地址:https://arxiv.org/abs/2407.08813

程式碼地址:https://github.com/Harvard-Ophthalmology-AI-Lab/FairDomain

資料集網站:https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k

資料集下載連結: https://drive.google.com/drive/folders/1huH93JVeXMj9rK6p1OZRub868vv0UK0O?usp=sharing

Harvard-Ophthalmology-AI-Lab 致力於提供高質量公平性資料集 更多公平性資料集 請點選lab的資料集主頁:https://ophai.hms.harvard.edu/datasets/

背景

近年來,深度學習在醫學影像領域的進步極大地提升了分類和分割任務的效果。這些技術有助於提高診斷準確性、簡化治療規劃,最終改善患者的健康狀況。然而,在不同醫療環境中部署深度學習模型時,面臨一個重要挑戰,即演算法固有的偏見和對特定人口群體的歧視,這可能會削弱醫療診斷和治療的公平性。

近期的一些研究開始解決醫學影像中演算法偏見的問題,開發了一些增強深度學習模型公平性的方法。然而,這些方法通常假設訓練和測試階段的資料分佈保持不變,這種假設在實際醫療場景中往往不成立。

例如,不同的初級保健診所和專科醫院可能依賴於不同的成像技術(例如,不同的視網膜成像方式)進行診斷,導致顯著的域轉移,進而影響模型效能和公平性。

因此,在實際部署中,必須考慮域轉移,並學習能夠在跨域場景中保持公平性的模型。

雖然已有文獻廣泛探討了域適應和域泛化,但這些研究主要集中在提高模型準確性,而忽視了確保模型在不同人口群體中提供公平預測的關鍵性。尤其在醫療領域,決策模型直接影響人類健康和安全,因此研究跨域公平性具有重要意義。

然而,目前僅有少量研究開始探討跨域公平性的問題,而且這些研究缺乏系統的全面調查,通常僅關注域適應或泛化,而很少同時關注兩者。此外,現有的研究主要解決醫學分類問題,而忽視了在域轉移下同樣重要的醫學分割任務。

為了解決這些問題,我們介紹了FairDomain,這是醫學影像領域第一個系統性探索域轉移下演算法公平性的研究。

圖片

我們透過多個最先進的域適應和泛化演算法進行廣泛實驗,評估這些演算法在不同人口統計屬性下的準確性和公平性,並瞭解公平性如何在不同領域之間轉移。

我們的觀察揭示了在不同的醫學分類和分割任務中,源域和目標域之間的群體表現差異顯著加劇。這表明需要設計以公平性為導向的演算法來有效解決這一緊迫問題。

圖片

為了彌補現有偏見緩解工作的不足,我們引入了一種新的多功能公平身份注意力(FIA)機制,該機制設計為可以無縫整合到各種域適應和泛化策略中,透過人口統計屬性(例如,種族群體)派生的自注意力來協調特徵重要性,以促進公平性。

FairDomain基準的開發面臨的一個關鍵挑戰是缺乏一個能夠真實反映現實世界醫療領域中域轉移的醫學影像資料集,而這種域轉移通常是由於不同的成像技術引起的。

現有的醫學資料集中,源域和目標域之間的患者人口統計差異引入了混淆,難以區分觀察到的演算法偏見是由於人口統計分佈變化還是固有的域轉移所致。

為了解決這個問題,我們策劃了一個獨特的資料集,包括同一患者佇列的配對視網膜眼底影像,分別採用兩種不同的成像方式(En face 和 SLO 眼底影像),專門用於分析域轉移場景下的演算法偏見。

總結我們的貢獻:

1、首次系統性探索了醫學影像中域轉移下的演算法公平性。

2、引入了公平身份注意力技術,以提高域適應和泛化中的準確性和公平性。

3、建立了一個大規模的、用於公平性研究的配對醫學分割和分類資料集,專門研究域轉移下的公平性問題。

資料收集和質量控制

受試者是在2010年至2021年間從哈佛醫學院的一個大型學術眼科醫院中選取的。本研究中探討了兩個跨域任務,即醫學分割和醫學分類任務。對於醫學分割任務,資料包括以下五種:

1、En-face 眼底影像掃描;

2、SLO 眼底影像掃描;

3、患者的人口統計資訊;

4、青光眼診斷;

5、杯盤掩膜註釋。

特別地,杯盤區域的畫素註釋首先透過 OCT 裝置獲取,OCT 製造商的軟體將 3D OCT 中的盤邊緣分割為 Bruch’s 膜開口,並將杯邊緣檢測為內界膜(ILM)與平面相交處的最小表面積的交點。

由於 Bruch’s 膜開口和內界膜與背景的高對比度,這些邊界可以很容易地分割出來。由於 OCT 製造商軟體利用了3D 資訊,杯盤分割通常是可靠的。

考慮到初級護理中 OCT 裝置的有限可用性和高成本,我們提出了一種將 3D OCT 註釋轉移到 2D SLO 眼底影像的方法,以提高早期青光眼篩查的效率。

我們使用NiftyReg 工具精確對齊 SLO 眼底影像與 OCT 衍生的畫素註釋,生成大量高質量的 SLO 眼底掩膜註釋。

這一過程經過一組醫學專家的驗證,註冊成功率達 80%,簡化了初級護理設定中更廣泛應用的註釋過程。我們利用這些對齊和手動檢查的註釋,結合 SLO 和 En face 眼底影像,研究分割模型在域轉移下的演算法公平性。

對於醫學分類任務,資料包括以下四種:

1、En-face 眼底影像掃描;

2、SLO 眼底影像掃描;

3、患者的人口統計資訊;

4、青光眼診斷。

醫學分類資料集中的受試者根據視野測試結果分為正常和青光眼兩類。

資料特徵

醫學分割資料集包含 10000 名受試者的 10000 個樣本。我們將資料分為訓練集 8000 個樣本,測試集 2000 個樣本。患者的平均年齡為 60.3 ± 16.5 歲。

資料集包含六個人口統計屬性,包括年齡、性別、種族、族裔、首選語言和婚姻狀況。人口統計分佈如下:

性別:女性佔 58.5%,男性佔 41.5%;

種族:亞洲人佔 9.2%,黑人佔 14.7%,白人佔 76.1%;

族裔:非西班牙裔佔 90.6%,西班牙裔佔 3.7%,未知佔 5.7%;

首選語言:英語佔 92.4%,西班牙語佔 1.5%,其他語言佔 1%,未知佔 5.1%;

婚姻狀況:已婚或有伴侶佔 57.7%,單身佔 27.1%,離婚佔 6.8%,法律分居佔 0.8%,喪偶佔 5.2%,未知佔 2.4%。

類似地,醫學分類資料集包含 10000 名受試者的 10000 個樣本,平均年齡為 60.9 ± 16.1 歲。我們將資料分為訓練集 8000 個樣本,測試集 2000 個樣本。人口統計分佈如下:

性別:女性佔 72.5%,男性佔 27.5%;

種族:亞洲人佔 8.7%,黑人佔 14.5%,白人佔 76.8%;

族裔:非西班牙裔佔 96.0%,西班牙裔佔 4.0%;

首選語言:英語佔 92.6%,西班牙語佔 1.7%,其他語言佔 3.6%,未知佔 2.1%;

婚姻狀況:已婚或有伴侶佔 58.5%,單身佔 26.1%,離婚佔 6.9%,法律分居佔 0.8%,喪偶佔 1.9%,未知佔 5.8%。

這些詳細的人口統計資訊為深入研究跨域任務中的公平性提供了豐富的資料基礎。

用來提升跨域AI模型公平性的方法Fair Identity Attention (FIA)

圖片

問題定義

域適應(Domain Adaptation, DA)和域泛化(Domain Generalization, DG)是機器學習模型開發中的關鍵技術,旨在應對模型從一個特定域應用到另一個域時可能出現的變異性。

在醫學影像領域,DA 和 DG 技術對於建立能夠穩健處理不同醫療機構、成像裝置和患者群體之間的變異性的模型至關重要。本文旨在探討域轉移背景下的公平性動態,並開發確保模型在適應或泛化到新域時保持公平和可靠性的方法。

我們旨在開發一個方法函式 f,以減輕模型從源域轉移到目標域時常見的公平性惡化。此類惡化主要由於域轉移可能放大資料集中現有的偏見,特別是那些與性別、種族或族裔等人口統計屬性相關的偏見。

為了解決這個問題,我們提出了一種基於注意力機制的方法,旨在識別和利用與下游任務(如分割和分類)相關的影像特徵,同時考慮人口統計屬性。

圖 3 顯示了所提出的公平身份注意力模組的架構。該模組首先透過處理輸入影像和輸入統計屬性標籤,以獲得輸入影像embedding E_i 和屬性embedding E_a。然後將這些嵌入加上位置embedding E_p。詳細的計算公式如下:

圖片

透過計算query和key的點積,我們提取與當前特徵屬性相關的相似度矩陣。然後使用該矩陣與value的點積提取每個特徵屬性在下游任務中顯著的特徵。這個過程由以下公式表示:

圖片

其中 D是一個縮放因子,以避免 softmax 函式中的值過大。

隨後,一個殘差連線將E_i新增到注意力的輸出中,以保持輸入資訊的完整性。最後,一個歸一化層和一個多層感知器(MLP)層進一步提取特徵。在對這兩個層的輸出進行另一次殘差操作後,我們得到了公平注意力模組的最終輸出。

公平身份注意力機制是一種強大且多功能的工具,旨在提高模型效能,同時解決公平性問題。透過明確考慮人口統計屬性(如性別、種族或族裔),它確保學習到的表示不會無意中放大資料中存在的偏見。

其架構允許它作為一個外掛元件無縫整合到任何現有網路中。這種模組化性質使得研究人員和實踐者能夠在不需要對底層架構進行大量修改的情況下,將公平身份注意力整合到他們的模型中。

因此,公平身份注意力模組不僅有助於提高分割和分類任務中的模型準確性和公平性,還透過促進資料集中不同群體的公平待遇來推動可信AI落地。

實驗

域轉移中的演算法公平性

在我們的實驗中,我們首先分析了在域轉移背景下的公平性,具體關注於杯盤分割任務。杯盤分割是指在眼底影像中精確描繪視杯和視盤的過程,這對於計算杯盤比(CDR)至關重要,是評估青光眼進展和風險的關鍵引數。

這一任務在醫學影像領域尤為重要,尤其是在診斷和管理青光眼等眼科疾病時。由於視杯是視盤的一個重要子區域,我們將分割任務重新定義為視杯和邊緣(視杯和視盤邊緣之間的組織區域)分割,以避免因視杯和視盤之間的大面積重疊而導致的表現失真。

我們研究了在三種不同的人口統計特徵(性別、種族和族裔)下的公平性表現,涉及兩個不同的領域:從光學相干斷層掃描(OCT)中獲取的 En face 眼底影像和掃描鐳射眼底影像(SLO)。

在隨後的實驗中,我們選擇 En face 眼底影像作為源域,SLO 眼底影像作為目標域。其原因在於,與 SLO 眼底影像相比,En face 眼底影像在專科眼科護理環境中更為常見,因此資料的可用性顯著更高。

因此,我們選擇將 En face 眼底影像作為源域,將 SLO 眼底影像作為目標域。對於分類任務,我們使用這兩個域的眼底影像作為源域和目標域,分類為正常和青光眼兩類。

評估指標

我們使用 Dice 和IoU指標來評估分割效能,使用受AUC來評估分類任務的效能。這些傳統的分割和分類指標雖然能反映模型的表現,但並未內在地考慮到各人口統計群體之間的公平性。

為了解決醫學影像中模型效能和公平性之間的潛在權衡,我們使用新穎的公平性縮放效能(ESP)指標來評估分割和分類任務的效能和公平性。

令 ∈{Dice,IoU,AUC,...}M in {Dice,IoU, AUC, . . .\}M∈{Dice,IoU,AUC,...} 表示適用於分割或分類的通用效能指標。傳統評估通常忽略人口統計身份屬性,從而錯過了關鍵的公平性評估。為了將公平性納入其中,我們首先計算效能差異Δ,定義為各人口統計群體的指標與總體效能的集體偏差,其公式如下:

圖片

當不同群體的效能公平性達到時,Δ接近零,反映出最小的差異。然後,ESP 指標可以公式化如下:

圖片

該統一指標有助於全面評估深度學習模型,強調不僅要關注其準確性(如透過 Dice、IoU 和 AUC 等測量),還要關注其在不同人口群體間的公平性。

Cup-Rim Segmentation Results under Domain Shifts

圖片

圖片

圖片

Glaucoma Classification Results under Domain Shifts

圖片

總結

本文聚焦於人工智慧(尤其是醫療AI)中的公平性問題,這是實現公平醫療的關鍵。

由於診所可能使用不同的成像技術,域轉移中的公平性問題仍然基本未被探索。我們的工作引入了FairDomain,這是一個關於域轉移任務中演算法公平性的全面研究,包括域適應和泛化,涉及醫學分割和分類兩個常見任務。

我們提出了一種新穎的即插即用的Fair Identity Attention(FIA)模組,透過注意力機制根據人口統計屬性學習特徵相關性,從而在域轉移任務中增強公平性。

我們還建立了第一個以公平性為中心的跨域資料集,其中包含同一患者佇列的兩種配對的成像圖片,以排除人口統計分佈變化對模型公平性的混淆影響,從而精確評估域轉移對模型公平性的影響。

我們的公平身份注意力模型可以改善現有的域適應和泛化方法,使模型效能在考慮公平性的情況下得到提升。

注:封面圖由AI生成。

相關文章