大資料醫療時代的人工智慧與隱私保護

中国人工智能开放创新平台發表於2019-04-09

近年來,隨著大資料探勘與分析等方法的逐漸成熟,人工智慧技術已經在醫療領域廣泛應用。本文詳細討論了在醫療資料採集端與人工智慧應用端隱私保護所面臨的各項問題,從技術的角度、法律的角度以及倫理道德的角度分別分析了醫療隱私安全,並最終提出了四條建議,為醫療行業隱私保護的理論和實踐發展提供了可行路徑。

1.大資料醫療時代的人工智慧

大資料很早就開始為醫療行業保駕護航了,但到底什麼是大資料醫療,這裡首先做一個定義。學術界通常透過4V來描述大資料:海量資料規模(Volume)、快速的資料流轉(Velocity)、多樣的資料型別(Variety)和較低的價值密度(Value)[7]。從不同領域出發,對大資料的理解也各不相同。在醫療領域,這4V也同樣成立:醫療資料正以史無前例的速度不斷更迭(Volume);病種繁多,病人各異,醫療資料必須快速流轉(Velocity);醫療資料有文字、有影像,甚至各個醫院還有各種不同格式的檔案(Variety);對醫療資料的聚通用還遠遠不夠(Value),要想辦法提高對醫療行業資料的“加工能力”,透過“加工”實現資料的“增值”。

大資料醫療伴隨著新的人工智慧技術的進步而蓬勃發展,例如用人工智慧來進行預測和生成推薦系統,其中最典型的應用之一是影像分析。目前國內診斷病人CT 影像還普遍採用兩個醫生同時檢視的形式,當兩個醫生對該影像得出相同的判斷時容易認定,但當兩個醫生得到的結論不同時則需要討論。這種方法是為了提高診斷的準確率,但是耗費人力。卷積神經網路(Convolutional neural networks CNN)是一種典型的深度學習演算法,已經在醫學影像領域擁有廣泛的應用。CNN可以接受各種醫學影像的訓練,包括放射科、病理科、皮膚科和眼科等。CNN獲取輸入影像,並使用簡單的操作(如卷積、彙集和完全的連線層)將其順序轉換為扁平向量,輸出向量的元素表示疾病存在的機率,因此可以輔助醫生進行診斷,在很大程度上緩解醫生的工作量[8]。另外一個人工智慧的醫療大資料應用是預測治療路徑,例如透過多種類多形式資料預測一個內傷患者發生大出血的機率並建議採取干預治療,或者預測一個重傷人員在一年內死去的機率從而建議從傳統治療轉為臨終關懷[6]。

在真實的應用場景中,人工智慧輔助醫療要透過大量的資料積累,包括疾病診斷記錄、病人用藥效果、基因資料、家庭病史、行為資料甚至社會環境狀況資料等。在國內,要實現上述資料積累,最重要的壁壘是打通各個醫院和社群間的資料交換共享渠道。美國基於此考慮建設了一個電子健康記錄系統(Electronic health records EHRs),十年內積累了1000萬名病人的記錄。EHR的潛在應用價值是巨大的,如果好好加以利用,這相當於積累了20萬年醫生的智慧和1億年的疾病情況[9]。在這樣的技術不斷突飛猛進的同時,我們享受到了科技進步帶來的好處,但我們不禁要問,在人工智慧學習分析大背景資料的同時,病人的隱私被侵犯了嗎?存在道德風險嗎?我們的現行法律能否保障我們在治療中和治療後的權益?

2.健康隱私

個人隱私向來是一個很難定義的概念。因為個人隱私無法像上文中的大資料一樣用幾個“V”就可以描述,個人隱私的定義要與其內涵強關聯,與行為人強關聯,涉及到內涵溢位的目的、頻率以及具體資訊[6]。當這些關聯規則被違背時,我們可以說個人隱私被侵犯了。隱私侵犯可以發生在錯誤的行為人接觸到資訊時,或者內涵溢位的目的動機不符合預設時,或者內涵溢位的頻率超出規定時等。健康隱私的內涵包括但不限於患者的隱私在病歷中的詳細記載,病情、個人史、家族史、接觸史、身體隱私部位、異常生理物徵等病理和個人生活秘密。侵犯個人健康隱私是否成立不應基於資訊量或物件資料集的大小,因為即使物件不大其後果仍可能是很嚴重的。在人工智慧醫療應用過程中的個人隱私問題主要可出現在圖1所示各環節。主要造成溢位的過程是資料匯聚和人工智慧應用兩個環節,以下分別予以討論。

大資料醫療時代的人工智慧與隱私保護圖1人工智慧應用中主要涉及隱私安全問題各環節。

3.資料匯聚的過程中產生的隱私問題

在資料匯聚過程中的隱私問題主要指擔憂隱私被直接侵犯的情況,或者可以理解為如圖1所示輸入和儲存中造成的內涵外溢。這可以是可預測的結果,比如乙肝病毒庫的隱私洩露可能導致當事人找工作受到歧視。有的結果是不可預測的,比如一個人總是擔心自己的隱疾被洩漏出去而導致精神緊張甚至抑鬱症。也要考慮到另一種情況,即是很多隱私是在當事人不知情的狀況下洩漏的,比如某些公司刻意收集網路上的個人隱私狀況或非法入侵某些醫療機構資料庫竊取資料,即使這些洩漏資料並未被直接加以利用給當事人帶來損失,甚至記錄也已被刪除,然而此種情況也應屬於醫療資料安全問題,可能有潛在的危害,應該被予以重視。

資料匯聚過程中的隱私問題也涉及很多法律和道德問題。健康隱私資料的來源包含很多方面:電子病歷、醫療保險、智慧健康終端裝置和社交媒體等等。美國關於隱私安全的立法較早,1974年即透過《隱私權法》(The Privacy Act),後在2003年生效《健康保險攜帶與責任法》(Health Insurance Portability and Accountability Act, HIPAA)。透過HIPAA規定了很多EHR的隱私保護細則,對使用EHR系統也有明確的規定,是否可以對EHR加以利用取決於資訊是如何建立的、誰在維護以及當事人情況[10]。中國法律暫未對個人健康隱私有進一步明確的規範,只是在《中華人民共和國網路安全法》第四十四條強調了“任何個人和組織不得竊取或者以其他非法方式獲取個人資訊,不得非法出售或者非法向他人提供個人資訊。”以及正在審議中的《中華人民共和國基本醫療衛生與健康促進法》第二十一條提到:“國家保護與公民健康有關的個人隱私,確保個人健康資訊保安。除法律法規規定或本人同意外,任何組織和個人不得獲取、利用和公開公民個人健康資訊。”從這兩條法律法規的對比可見,我們的相關法律和規範還比較宏觀,缺乏對具體情況的考慮。我國在2018年5月1日開始實施的《資訊保安技術個人資訊保安規範》,是一部相對比較完整,從個人資訊的收集、儲存、使用等角度提出保護個人資訊保安應遵循的原則。然而,我們還缺少針對醫療隱私保護的詳細的法律法規,現階段在健康資料系統還沒有打通的情況下矛盾尚不明顯,一旦有了國家範圍內類似美國EHR的資料共享系統,隱私保護問題將被無限放大,我們應該提前做好預防。

有的人會問,在資料原始採集過程中有一個關鍵的問題,即為了研究的目的或更多人的利益著想,某些健康隱私是否可直接被脫敏後再進行儲存和使用。然而首先脫敏的方法和標準沒有定性,其次,現階段的某些技術達到了即使脫敏後也可以透過多資料集的比對重新配對資料的程度,從而使脫敏失效[11]。

4.人工智慧資料使用過程中產生的隱私問題

如圖1所示,人工智慧的資料輸出包含多種方面,比如智慧輔助診療,預測診療手段、精準切除以及各種基因處理方法等。在資料輸出過程中的隱私安全問題不可迴避,其直接造成的一類後果就是帶來歧視。例如在聘用過程中如果僱主透過某些渠道的診療手段洩漏獲悉擬聘用人員有慢性病或一些較難治療的疾病,有很大可能會招致聘用失敗,而這是違反《勞動法》的。特別是針對一類在聘用時其實並沒有疾病但屬於染病高風險人群(可能是基因資料的分析結果或是家庭病史甚至社群和性取向等帶來的高風險等),這樣的資訊洩露很顯然是不公平的。最近一項針對臨床試驗參與者的調查發現,6.6%的參與者“非常擔心”,14.9%的參與者“有點擔心”,即“如果資訊與我聯絡起來,我會受到歧視”。但正如調查報告作者承認的,特定的特徵研究人群的主觀導向,尤其是他們已經決定參加臨床試驗的事實,可能會影響到他們的決定從而最終影響預測結果的準確性[12]。

另一類在人工智慧預測結果中產生的隱私侵犯可能不會直接帶來嚴重的後果,但因為擔心自己的隱私權受到侵犯,可能會使人精神緊張、暴躁甚至產生精神疾病。比如在自動比對基因庫的過程中發現的一類問題可能會引致思考別人看到會怎麼辦的想法,從而導致一些焦慮。

5.總結並提出建議

首先不能因噎廢食,應該區分性對待隱私所有權問題。包括脫敏程度,資料使用者以及使用目的。例如疾控中心可以用流感應對資料對比醫院發熱病人狀態,來重新考核現行流感控制措施,這樣做確實在未經許可時侵犯了健康隱私(未予洩漏),但其目的是為潛在的發病做更好的服務。

其次須採用一些創新的方法去追求醫療隱私問題的平衡性。新的人工智慧技術不斷湧現,某些隱私資料在積累時尚不能考慮到其應用場景和應用範圍,所以也不能提前徵求被採集者的意見,而當需要使用其資料時,很多情況下難以做到一一徵求意見,特別是在看似無害的資料使用情況下。因此,利用新的人工智慧技術,在資料匯聚的過程中即做好甄別和預判資料使用許可權工作,提前徵求當事人意見,則可避免許多矛盾。

第三,如上文所示,加強醫療資料安全領域立法,特別是細緻的、針對資訊是如何建立的、誰在維護以及當事人情況的法律法規的建立是有急切需求的。

最後,建議成立國家、省、市級“關鍵資料安全委員會”,對醫療資料如何開放共享,如何判定隱私洩漏責任權屬以及新技術的應用等問題,起到關鍵指導作用。

參考文獻

1.Stanford Health. Harnessing the power of data in health. Stanford Medicine 2017 Health Trends Report (2017).

2.Russakovsky, O. et al. Imagenet large scale visual recognition challenge. Int. J. Compute. Vis. 115, 211-252 (2015).

3.Litjens, G. et al. A Survey on deep learning in medical image analysis. Med. Image Anal. 42, 60-88 (2017).

4.Esteva, A. et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 542, 115-118 (2017).

5.Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat. Med. 24, 1342 (2018).

6.Nicholson, P. II & Glenn Cohen, I. Privacy in the age of medical big data. Nat. Med. 25, 37-43 (2019).

7.魏琴,歐陽智,袁華 《數融未來:圖解大資料+產業融合》(貴州人民出版社,貴陽,2018)。

8.Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24-29 (2019).

9.National Committee on Vital and Health Statistics and its Privacy, Security, and Confidentiality Subcommittee, U.S. Department of Health and Humam Services. Health information privacy beyond HIPAA: a 2018 environmental scan of major trends and challenges. https://ncvhs.hhs.gov/wp-content/uploads/2018/05/NCVHS-Beyond-HIPAA_Report-Final-02-08-18.pdf (2017).

10.Terry, N. P. Existential challenges for healthcare data protection in the United States. Ethics, Med., & Pub. Health 3, 19–27 (2017).

11.Gymrek, M. et al. Identifying personal genomes by surname inference. Science 339, 321–324 (2013).

12.Mello, M. M., Lieou, V. & Goodman, S. N. Clinical trial participants’ views of the risks and benefits of data sharing. N. Engl. J. Med. 378, 2202–2211 (2018).

中國人工智慧開放創新平臺
中國人工智慧開放創新平臺

平臺由貴陽市政府、英特爾及中國產業創新聯盟共同打造,致力於深化AI產業結構發展,扶持AI初創企業,打造AI生態圈,集合眾多海內外高校導師及行業大牛,撰稿深度分析專業技術及應用,為 智慧+注入源源不斷的活力。

相關文章