文 / Google Brain 團隊軟體工程師 Patrik Sundberg 和產品經理 Eyal Oren
原文連結:mp.weixin.qq.com/s/AukAfg-5C…
在過去 10 年間,醫療資料已經從以紙質檔案為主幾乎完全數字化為電子健康記錄。但是,理解這些資料涉及一些關鍵挑戰。
-
供應商之間沒有共同的資料表示形式;每個供應商都使用不同的方式來構建他們的資料。
-
即使使用相同供應商的網站也可能存在很大不同,例如,他們通常為同一種藥物使用不同的程式碼。
-
資料可能分佈在多個表格中,一些表格包含患者就醫記錄,一些包含實驗室結果,其他的則包含生命體徵資料。
快速醫療互操作性資源 (FHIR) 標準解決了其中的大多數挑戰:它具有一個堅實並且可擴充套件的資料模型並基於成熟的網路標準構建,正在快速成為個體記錄和批量資料訪問的事實標準。但是,為了實現大規模機器學習,我們需要一些補充:各種程式語言的實現,將大量資料序列化到磁碟的有效方法,以及允許分析大型資料集的表示形式。
今天,我們高興地開源 FHIR 標準的一種協議緩衝區實現,它可以解決這些問題。當前版本支援 Java,並且將很快支援 C++、Go 和 Python。對配置檔案的支援也即將釋出,還會推出一些工具,幫助使用者將舊資料轉換成 FHIR。
將 FHIR 用作核心資料模型 過去幾年,我們一直與眾多學術醫療中心合作,將機器學習應用於匿名病歷,我們需要正面解決醫療資料的複雜性,這一點已經變得非常明顯。確實,要讓機器學習有效用於醫療資料,我們需要從整體上了解每名患者隨著時間推移的情況。作為獎勵,我們想要一種可以直接用於臨床環境的資料表示形式。
儘管 FHIR 標準可以解決我們的大多數需求,但是為了使醫療資料比“舊”資料結構更加易於管理和確保大規模機器學習不依賴於供應商,我們認為引入協議緩衝區可以幫助應用開發者和(機器學習)研究人員使用 FHIR。
當前版本的協議緩衝區 為了讓我們的協議緩衝區表示適合程式設計訪問和資料庫查詢,我們做了大量工作。提供的一個示例顯示瞭如何將 FHIR 資料上傳到 Google Cloud BigQuery 中並讓它可以用於查詢,我們將新增直接從批量資料匯出上傳的其他示例。我們的協議緩衝區符合 FHIR 標準(這些緩衝區實際上是從此標準自動生成的),但可以實現更高階的查詢。
當前版本還不可以用於訓練 TensorFlow 模型,不過,敬請關注未來更新。我們打算開源儘可能多的近期工作,以便提升我們的研究在現實世界情景中的重現性和適用性。此外,我們還在與 Google Cloud 團隊的同事緊密合作,推出更多用於管理大規模醫療資料的工具。