作者 | 哈佛大學、紐約大學團隊
編輯 | ScienceAI
公平性在深度學習中是一個關鍵問題,尤其是在醫療領域,這些模型影響著診斷和治療決策。儘管在僅限視覺領域已對公平性進行了研究,但由於缺乏用於研究公平性的醫療視覺-語言(VL)資料集,醫療VL模型的公平性仍未被探索。
為了彌補這一研究空白,我們介紹了第一個公平的視覺-語言醫療資料集(FairVLMed),它提供了詳細的人口統計屬性、真實標籤和臨床筆記,以便深入檢查VL基礎模型中的公平性。
使用FairVLMed,我們對兩個廣泛使用的VL模型(CLIP和BLIP2)進行了全面的公平性分析,這些模型在自然圖片和醫療圖片領域都有預訓練,涵蓋了四個不同的受保護屬性資訊。
我們的結果突出顯示了所有VL模型中的顯著偏見,亞洲人、男性、非西班牙裔和西班牙語者分別是種族、性別、族裔和語言這些受保護屬性中的首選組別。為了減輕這些偏見,我們提出了FairCLIP,一種基於optimal-transport的方法,透過減少整體樣本分佈與每個人口統計組之間的Sinkhorn距離,實現了效能和公平性之間的有利折衷。
作為首個研究公平性的VL資料集,FairVLMed對研究模型公平性實現既具有倫理意識又在臨床上有效的機器學習模型的潛力。
在這裡分享一篇哈佛大學和紐約大學研究團隊的CVPR 2024論文: 「FairCLIP: Harnessing Fairness in Vision-and-Language Learning」。
在本次工作中, 我們提出了開創性的關於多模態視覺語言大模型的公平性的研究, 針對這項研究我們收集了第一個帶有公平性族裔指標的視覺語言醫療大型資料集, 並且提出了針對視覺語言預訓練的方法FairCLIP來嘗試提升不同組別的公平性 (讓不同組別的準確率接近)。
論文地址: https://arxiv.org/pdf/2403.19949.pdf
程式碼地址: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
資料集網站:https://ophai.hms.harvard.edu/datasets/harvard-fairvlmed10k/
資料集下載連結: https://drive.google.com/drive/u/1/folders/1bkeifigwOAfnsLvup9mJOSNeA3WsvA2l
Harvard-Ophthalmology-AI-Lab 致力於提供高質量公平性資料集 更多公平性資料集。
Lab的資料集主頁:https://ophai.hms.harvard.edu/datasets/
研究背景
近年來,公平性在深度學習領域受到了越來越多的關注。這一點尤其重要,特別是在醫療領域,這些深度學習模型影響著診斷和治療決策。這些模型中與種族、性別或社會經濟地位等因素相關的偏見可能導致醫療服務差距和不利的患者結果。
因此,確保這些模型無偏見不僅是道德和法律要求,也是確保患者安全和醫療公平的必要條件。這使得在醫療計算機視覺領域中的公平性成為一個關鍵且迫切的問題,對於提供公平的醫療服務至關重要。
先前的研究已經發現了基於深度學習的醫學影像模型中的偏見,主要集中在胸部X光診斷上。與這些僅限視覺的模型不同,近期視覺-語言(VL)基礎模型的興起設定了跨越廣泛任務領域的新基準。然而,儘管這些VL模型表現出色,它們的公平性仍然不明確。
鑑於僅限視覺的模型存在偏見,以及臨床醫學報告的人工編寫特性,VL模型可能會進一步加劇公平性問題。因此,隨著深度學習領域向多模態基礎模型的轉移,審視視覺和文字的相互作用如何影響演算法結果的公平性變得越來越關鍵。然而,進行此類調查的當前環境受限於缺乏包含全面人口統計資訊的VL資料集,現有的公共VL資料集主要關注胸部X光。
先前的研究已經突出顯示,使用這些資料集研究公平性面臨挑戰,因為它們的真實標籤是從放射學報告中自動提取的,可能由於標籤噪聲導致不準確的公平性結論。此外,由於這些資料集主要不是為了公平性設計的,它們只提供少數人口統計特徵,限制了進行跨多個維度的全面公平性研究的潛力。更進一步,放射學報告主要關注對成像資料的直接觀察,很少包含額外的特定於患者的資訊,不代表大多數臨床文字,因此限制了它們在醫學VL模型公平性研究中的實用性。
為了彌補這一研究差距,我們介紹了第一個用來研究公平性的視覺-語言醫療資料集(簡稱FairVLMed),它提供了詳細的人口統計屬性、真實標籤和臨床醫學報告,以促進對VL基礎模型內公平性的深入檢查。
FairVLMed包含了10,000名患者的記錄,每個記錄都與一張SLO視網膜影像和一份用於診斷青光眼的臨床醫學報告配對,同時包括如年齡、性別、種族、族裔、首選語言和婚姻狀況等詳細的受保護屬性。
與放射學報告不同,我們資料集中的臨床醫學報告提供了更為詳細的資訊,不僅包括影像描述,還包括藥物、非影像測試結果和家族史等豐富的非影像臨床資訊。因此,這些臨床醫學報告更具代表性,更適合用於研究醫學VL模型的公平性。
青光眼影響著全球數百萬人,它體現了公平診斷模型的需求。及時檢測對於避免不可逆轉的視力損失至關重要。然而,許多患者由於這種疾病的無症狀性質和眼科護理的障礙而未被診斷。此外,未診斷的問題在少數族裔中尤為突出。例如,以往的研究表明,相比於白人群體,黑人社群的個體未診斷和未治療的青光眼的可能性高4.4倍,這凸顯瞭解決醫療差異的重要性。
深度學習系統對於改善醫療保健具有重大潛力。然而,在這些深度學習系統臨床實施之前,解決潛在的公平性問題是必要的,以確保公平的醫療服務提供。
在這項工作中,我們使用兩種廣泛使用的VL方法(即CLIP和BLIP2)在FairVLMed上進行了廣泛的公平性分析。我們的實驗結果揭示了基於種族、性別、族裔和語言的各種群體之間存在顯著準確性差異。
為了解決這些公平性問題,我們引入了一種基於optimal transport的方法,命名為FairCLIP。FairCLIP旨在透過最佳化Sinkhorn距離來增強公平性,從而使整體樣本特徵分佈與每個人口統計組的特徵分佈對齊。
我們的主要貢獻可以總結如下:
- 我們介紹了第一個公平的視覺-語言醫療資料集(FairVLMed),它具有詳細的人口統計屬性、真實標籤和臨床醫學報告,用於研究VL基礎模型的公平性。
- 使用FairVLMed,我們對兩個廣泛使用的VL模型(即CLIP和BLIP2)進行了全面的公平性分析,這些模型在自然和醫療領域都進行了預訓練,涉及四個不同的受保護屬性。
- 我們的結果突出顯示了所有VL模型中的顯著偏見,亞洲人、男性、非西班牙裔和西班牙語者分別是種族、性別、族裔和語言這些受保護屬性中的首選亞組。
- 我們提出了一種名為FairCLIP的基於optimal transport的方法,它在效能和公平性方面都顯著優於CLIP。
如何獲得大量的配對的視覺語言醫療資料
本研究中的資料來自2015至2022年間青光眼服務的受試者來自哈佛醫學院的馬薩諸塞眼耳醫院。本研究將包含了三類資料:(1)掃描鐳射眼底攝影(SLO)眼底影像;(2)人口身份群體資訊;以及(3)由眼科醫生撰寫的去標識化臨床筆記,以提供青光眼診斷的總結。
SLO眼底影像是評估青光眼等疾病引起的視網膜損傷的有價值標誌。每張SLO眼底影像都與六個人口身份屬性相關聯,包括年齡、性別、種族、族裔、首選語言和婚姻狀況。附帶的臨床筆記長度不一,這些筆記可能詳細描述評估、治療計劃和診斷策略,並被認為與SLO眼底影像中的視覺語義相對應。
圖1展示了兩個SLO眼底影像及臨床筆記的示例。受試者被分為非青光眼(透過視野(VF)測試測量的視覺功能正常:VF平均偏差≥-1 dB且VF青光眼半視野測試和模式標準偏差(PSD)結果正常)和青光眼類別(透過VF測試測量的視覺功能異常:VF平均偏差<-3 dB且VF青光眼半視野測試和PSD結果異常)。
受保護資訊Deidentify
原始臨床筆記可能包含受保護的敏感資訊,如青光眼診斷日期、患者姓名、電話號碼、電子郵件地址、物理位置、機構等。我們透過以下三個步驟去標識這些敏感資訊。
首先,我們使用Microsoft的Presidio工具對所有臨床筆記進行匿名處理,將敏感資訊替換為相應的佔位符(例如,PERSON NAME, PHONE NUMBER, LOCATION),以便保持原始句子結構和連貫性。
然後,我們使用規則匹配並去標識Presidio未完全識別的受保護資訊(例如,實體地址)。
最後,去標識化的臨床醫學報告由四位醫學專家進一步驗證。特別是,每份臨床筆記都由一位專家檢查,必要時將敏感資訊手動替換為相應的佔位符。
資料特徵
FairVLMed資料集包括來自10,000名受試者的10,000個樣本。它被劃分為7,000個訓練樣本、1,000個驗證樣本和2,000個測試樣本。
資料集的平均年齡為60.9 ± 16.2歲。資料集包括來自三個主要群體的樣本:亞洲人,819個樣本;黑人,1,491個樣本;白人,7,690個樣本。在性別方面,女性佔受試者的56.3%,其餘為男性。種族分佈以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定為特點。
在首選語言方面,92.5%的受試者偏好英語,1.7%偏好西班牙語,0.8%偏好其他語言,5.0%未知。從婚姻狀況角度看,57.4%已婚或有伴侶,26.4%單身,6.6%經歷過離婚,1.0%法律分居,6.1%喪偶,2.5%未指定。去標識化後,臨床筆記的詞數從11到332詞不等,平均詞數為147詞。
用來提升視覺語言基礎模型公平性的方法FairCLIP
如上圖所示,我們提出的FairCLIP框架旨在預訓練階段提高公平性。這是透過最小化不同種族群體(或其他基於屬性的群體)之間視覺和語言特徵相關性M_{I,i}的機率分佈之間的差異來實現的。
其中 d 是一個距離函式 是計算上不可行的潛在分佈。我們在方程中使用基於批次的分佈,B_a表示批次中的樣本來自群體 a。
為了最佳化目標,一種直接的方式是最小化兩個分佈之間的Kullback–Leibler (KL) 散度。然而,KL散度不對稱且不滿足三角不等式,因此不是真正的距離度量。相反,我們遵循文獻引用,最小化兩個分佈之間的Sinkhorn距離。Sinkhorn距離是一種機率度量和Wasserstein距離的變種。兩個分佈之間的Sinkhorn距離定義為:
Sinkhorn損失將被新增到CLIP在預訓練階段使用的損失中,以最佳化CLIP的公平性。
實驗
我們採用兩種型別的評估策略——– linear probing and zero-shot transfer。對於linear probing,我們遵循官方的MAE實現,在CLIP和BLIP2的視覺特徵上分別訓練一個線性分類器。類似於MAE,在線性分類器前我們使用了一個BatchNorm層,並採用了LARS最佳化器,基礎學習率為0.1,權重衰減為0,批次大小為512。對於zero-shot transfer , 我們採用了和CLIP原文一致的做法。
表2展示了linear probing的結果,檢查了各種效能(AUC)和公平性(DPD、DEOdds、ES-AUC)指標,以及在每個四個受保護屬性內的個別子群體中報告了群組AUC得分。我們主要關注隨後分析中的ES-AUC指標,因為它捕捉到了整體效能以及公平性的概念——這兩者對於安全關鍵的醫療應用都很重要。表2展示了各種受保護屬性中VL效能的差異,以及不同VL預訓練領域(自然影像 vs. 醫療影像)和VL預訓練方法(CLIP vs. BLIP2)對模型效能和公平性的影響。
表3比較了CLIP與FairCLIP在兩種不同架構(ViTB/16和ViT-L/14)以及四種不同受保護屬性上的zero-shot transfer的準確性。CLIP和FairCLIP都是透過不帶監督資訊(即標籤)的影像和臨床筆記對進行微調的。然後,得到的模型在分類任務中進行評估。CLIP在種族、性別、族裔和語言等屬性的群組AUC中表現出顯著差異,表明在青光眼檢測中存在偏見。總體而言,FairCLIP在公平性指標(DPD、DEOdds)以及各種人口子群的ES-AUC和AUC分數方面,都顯著優於CLIP。
表5顯示了更多的端到端微調結果,進一步驗證了FairCLIP的有效性。這些實證發現表明,最佳化整體樣本分佈與特定子群分佈之間的距離,有效地提高了公平性,表明了一個在解決和減輕固有偏見方面有前景的方向。
為了解耦影像和文字特徵的好處,我們對BLIP2預訓練模型進行線性探測,使用僅限視覺或(視覺+語言)特徵。表4展示了以ES-AUC為衡量標準的效能-公平性權衡。我們注意到,除了語言外,多模態特徵在所有受保護屬性上都一致地改善了效能-公平性權衡。這凸顯了VL模型有效利用了臨床文字特徵,尤其是在種族屬性上觀察到最顯著的收益。
為了調查不同視覺編碼器對BLIP2模型公平性的影響,我們使用了兩種不同的預訓練編碼器——1)在自然領域訓練的CLIP,而2)在醫療領域訓練的PMC-CLIP。圖3b中的結果顯示,PMC-CLIP在所有四個受保護屬性上都優於CLIP,尤其是在種族子群上的收益最為顯著。我們注意到,專門針對醫療的LLM摘要器和視覺編碼器一致地改善了VL模型的效能-公平性權衡,尤其是在種族屬性上的改善最為顯著。
Beutel等人引入了一種公平性方法,該方法使用對抗性損失來防止模型不準確地預測敏感屬性。這種方法旨在確保模型在不依賴其敏感屬性的情況下預測影像的標籤,從而減少分類中的偏見。圖3c展示了CLIP、帶對抗性損失的CLIP(CLIP w/ Adv)和FairCLIP之間的效能比較。帶對抗性訓練的CLIP(CLIP w/ Adv)的效能並不一致地超過所有屬性中標準CLIP的效能。相反,FairCLIP一致地優於CLIP。這種效能上的變化可以歸因於對抗性訓練在保持每個屬性等同預測準確性方面的固有挑戰。另一方面,FairCLIP使用Sinkhorn損失,有效地鼓勵所有樣本的分佈相對於每個組的分佈的均勻性。
下面展示了更多的結果在文章補充材料之中。
總結
鑑於醫療領域對公平性的關鍵需求,我們引入了第一個研究公平性的視覺-語言醫療資料集(FairVLMed),用於研究醫療VL基礎模型的公平性。
我們對FairVLMed的全面公平性分析揭示了所有VL模型中存在的顯著偏見。為了解決這些偏見,我們提出了FairCLIP,一種基於optimal transport的方法,有效地平衡了效能和公平性。
注:封面來自網路