PrimiHub一款由密碼學專家團隊打造的開源隱私計算平臺,專注於分享資料安全、密碼學、聯邦學習、同態加密等隱私計算領域的技術和內容。
在醫療保健領域,每當研究人員想要用患者的資料進行大資料分析時,就不得不考慮患者資料的訪問與保證資料安全之間的平衡。
以前我們沒辦法,現在我們有了隱私計算技術。
那麼如何利用隱私計算技術呢?如何使用演算法、架構和隱私計算技術結合,來確保資料的安全呢?
以前我們都是泛泛的討論各類隱私計算技術是使用場景,比如聯邦學習、差分隱私、資料清潔室等等,這次我們從演算法和架構入手,詳細介紹下合成資料、生成對抗網路和數字孿生技術在醫療保健領域的應用。
綜合資料的處理
隱私計算技術可以利用歷史資料分佈生成真實的資料集,從而幫助保護患者隱私。這些可用於增強現有資料來源有增強小型資料集,或建立完全合成的資料集。這樣做可以提高分析專案中使用的資料集的實用性和可用性。
根據麻省理工學院 (MIT) 的說法,合成資料被設計為具有與它們所基於的現實世界資料相同的數學屬性,但不包含任何相同的資訊。透過使用關聯式資料庫建立生成機器學習模型,利益相關者可以生成第二個綜合資料集。
合成資料的一些廣泛用例涉及使用它們來減少偏見和改進人工智慧 (AI) 模型,但它們也可用於保護敏感資料,這是醫療保健分析中最關心的問題。
根據今年早些時候在PLOS Digital Health上發表的一項研究,雖然研究人員仍然更喜歡真實世界的資料,但合成資料為彌合政策制定和研究中的資料訪問差距創造了機會。
在其中,研究人員強調了合成資料在醫療保健中的七種潛在應用:模擬和預測研究;假設、方法和演算法測試;流行病學和公共衛生研究;衛生資訊科技(IT)開發;教育和培訓; 公開發布資料集;和連結資料。
合成資料也被用來加速 COVID-19 研究。
醫療保健領域合成資料的潛力也引起了國家利益相關者的關注。
美國國家衛生資訊科技協調員辦公室 (ONC)於 2021 年發起了合成健康資料挑戰賽,旨在鼓勵衛生 IT 領域的創新者增強開源合成患者生成器 Synthea,或展示該工具的新用途資料。
為了增強 Synthea 為兒科人群、具有複雜護理需求的患者以及因阿片類藥物使用而苦苦掙扎的個人生成高質量綜合資料集的能力,ONC 率先發起了“生成綜合健康資料以加速以患者為中心的結果研究”計劃。
專家認為,合成資料是解決機器學習 (ML) 模型可以從匿名資料中識別患者特徵(例如性別、年齡、血壓、吸菸、糖尿病和 COVID-19 狀態)這一事實的最有前途的解決方案之一。
合成資料還可以幫助實現資料集多樣化並支援臨床研究,同時確保患者隱私。
儘管有這些好處,但研究與醫療保健合成資料相關的漏洞的研究人員指出,惡意行為者可以利用這些資料傳播錯誤資訊,並透過虛假冒充影片(也稱為深度偽造)欺騙面部識別軟體。
此外,雖然合成資料可以幫助開發和改進基於人工智慧的醫療裝置,但其在當前修改醫療保健人工智慧演算法的監管框架中的作用尚未確定。這樣做對於確保合成資料可用於保護患者隱私和改善臨床決策至關重要。
研究人員指出,目前,醫療保健行業還缺乏客觀、穩健的方法來確定合成資料與其所基於的現實世界資料是否有足夠的差異,從而引發了這些資料集是否可以被歸類為真正匿名的問題。傳播這些敏感醫療資料的綜合表示也沒有具體限制。
未來,合成資料在醫療保健領域的潛力可能會被證明是有價值的,但在BMJ Medicine上撰文的專家表示,需要進行更多研究來探索與這些資料集相關的風險和成本效益,包括在多大程度上可以依賴它們分析。
生成對抗網路(GAN)
生成對抗網路 (GAN)是深度學習 (DL) 的一種,利用神經網路生成合成資料。GAN 由生成網路和對抗網路組成,用於生成逼真的影像、影片、錄音和其他型別的資料。
生成網路獲取輸入資料並使用它來生成該資料的合成版本。此過程的結果將根據輸入以及模型層針對所需用例的訓練程度而有所不同。
對抗網路將真實資料與合成資料進行比較,使用鑑別器機制來區分兩種資料型別。
當兩個網路執行這些任務時,理論上結果應該會有所改善,直到合成資料與現實世界的資料幾乎無法區分。
研究表明,GAN 在醫學中的應用主要涉及醫學影像處理、合成、分割、生成和去噪。
這種 PET 在醫療保健領域的其他潛在用例包括生成腦腫瘤的合成異常磁共振影像、生成合成 EHR 資料、改進基於人工智慧的癌症成像、支援單細胞 RNA 測序以及支援醫學教育。
專家認為,GAN 及其產生的合成資料有可能徹底改變臨床研究,同時保護患者隱私。他們表示,使用這些方法可以使醫療保健資料完全匿名,從而使資料集中的任何資訊都無法追溯到真實的個人。
除了平衡和擴充套件現有資料集之外,這還可以使研究人員在適當的情況下取代真實患者資料的使用。
然而,GAN也可能被不良行為者用來對醫療保健人工智慧進行“對抗性攻擊”。在此類攻擊中,GAN 可用於建立虛假影像或更改資料點,以使 AI 得出錯誤的結論,這將嚴重影響患者的安全。
此外,GAN 的訓練計算成本很高,需要大量投資和圖形處理單元 (GPU) 等資源。
一旦 GAN 經過訓練,理論上它可以生成無限量的合成資料,但標記這些資料在醫療保健領域是一個挑戰。準確的“地面實況標記”對於醫療保健人工智慧模型的開發是必要的,如果未能標記用於訓練這些工具的資料,可能會嚴重限制其效能和臨床實用性。
資料標記通常由人類以勞動和時間密集的方式執行,這阻礙了可以實際標記和使用多少合成資料。
研究人員指出,未來可能可以使用在真實資料上訓練的成熟機器學習模型來標記這些合成資料。但就目前而言,這是不可行的,這加重了人類利益相關者合成資料標籤的負擔,並限制了 GAN 在醫療保健領域的潛力。
數字孿生的應用
數字孿生是物理物件、流程、系統或人員的數字或虛擬表示,旨在幫助組織模擬潛在結果。IBM 表示,數字孿生通常旨在跨越物理孿生的生命週期,利用實時資料更新和機器學習來幫助支援決策。
與標準模擬不同,數字孿生可以擴充套件以同時執行研究和模擬多個過程,這使得這種 PET 吸引了對建模和視覺化感興趣的醫療保健利益相關者。醫療保健數字孿生可用於建立人體 3D 視覺化、協助診斷和治療、推進精準醫療以及進行預測分析。該技術還被用來簡化醫院運營。
醫療保健數字雙胞胎還可能有助於改善健康公平。
今年 2 月,克利夫蘭診所和 MetroHealth 的研究人員獲得了美國國立衛生研究院 (NIH) 314 萬美元的撥款,用於開發數字孿生技術,以更好地瞭解和解決衛生系統人口中的健康差距。
該研究將利用 250,000 名患者的 EHR 資料構建數字孿生模型。然後,這些模型將用於研究健康趨勢以及影響健康差異的複雜社會、環境和經濟因素。
該贈款還將支援“數字孿生社群”的開發,以幫助更好地瞭解克利夫蘭地區特有的各種健康不平等現象。
該專案旨在利用數字雙胞胎生成的資料來改善基於地點的人口健康和結果。
去年在《npj Digital Medicine》上發表的一項研究強調,醫療保健數字孿生的主要潛在好處之一是能夠深入瞭解物理雙胞胎(通常是患者)的預期行為,這可以顯著推進臨床試驗、精準醫學、和公共衛生。
研究人員表示,將數字孿生研究轉化為臨床實踐的主要考慮因素是計算要求、產品監督、資料治理和臨床實施問題。
此外,一些專家指出,資料收集和融合的困難以及模擬精度是當前醫療領域數字孿生應用的重大限制。但是,他們表示,展望未來,利益相關者可以透過結合醫療保健數字雙胞胎、大資料、人工智慧和物聯網(IoT)來建立高質量的患者模型,以實現個性化診斷和治療。
原文地址:Patient Privacy in Healthcare Analytics: The Role of Augmentation PETs
原文作者:Shania Kennedy
翻譯 & 整理:開放隱私計算 & PrimiHub