有人認為,大資料將有助於提高醫療保健行業的效率,促進在該行業推行問責制。然而到目前為止,其他行業在這方面要成功得多:通過對多種資料來源進行大規模的整合和分析,獲得了實用價值。那些成功行業弄明白了一個問題,那就是:當不同的資料集在具體某個人的層面上連線起來時,大資料就會產生變革性的價值。相比之下,生物醫學大資料分散在研究機構中,而且被特意地隔離起來,目的是為了保護病人的隱私。連線這些分散的資料,既有技術方面的挑戰,也有社會方面的挑戰。只有迎接兩個方面的挑戰,才能使生物醫學大資料對醫療保健行業發揮充分的作用。在今天的“觀點”欄目中,我們要著重分析這種連線所帶來的挑戰。

競選活動、政府和企業利用大資料儘可能更多地瞭解選民或客戶情況,然後利用先進的估算方法來制定策略。2012年奧巴馬競選的時候,把來自臉譜網(Facebook)、人口普查、選民列表以及積極推廣等多種渠道的資料綜合起來,以確認、接近和影響那些猶豫不決的選民。國家安全域性通過電話公司和網際網路公司來確認恐怖分子。通過使用者的上網歷史和地理環境,谷歌公司將每個人的搜尋結果進行了個性化處理。在所有的這些事例中,關鍵是已經超出了綜合資料的範圍,將資訊連線到了具體的人。知道在某個行政區域內有很多猶豫不決的選民是有所幫助的,但是跟這些具體的人們獲得聯絡可能有助於贏得一場競選。

獲得大資料可能會使醫生和研究人員驗證新的假設,並確認那些可能遭受干預的領域。例如,通過從不同地區的商店所獲得的雜貨購買模式,能否預測出公共衛生資料庫中肥胖症和2型糖尿病的患病率呢?能否像配藥時對後續配方進行測量那樣,將家庭監視裝置所記錄的運動量跟降膽固醇藥物的療效相互關聯起來呢?病人的臉譜網網友在多大程度上能夠影響他們對生活方式的選擇和對醫學治療的依從呢?至於這些相互關聯的推斷是否真正地存在於大資料中,以及醫生們將如何利用這些資訊,這些情況都還不清楚。然而,將資料連線到具體病人的層面上來,是探索這些可能性的先決條件。

在有效利用生物醫學大資料方面,首要的挑戰就是要確定衛生保健資訊的潛在來源是什麼,以及確定將這些資料連線起來之後所帶來的價值如何。將資料集按照“大小”從不同的方面進行條理化,這個大資料就會提供解決問題的潛在方案。一些大資料,如電子健康記錄(EHRs),提供詳盡資料,包括病人接受診斷時的多種資料(如:圖片、診斷記錄等)。儘管如此,其他大資料,如保險理賠資料,提供縱深資料——顧及病人在很長一段時間裡、在某個狹窄的疾病型別範圍內所經歷的病史。當連線資料有助於填補空白的時候,這些大資料才會增加價值。只有記住這些,才能更容易明白如何將衛生保健系統之外非傳統來源的生物醫學資料融入這些情況之中。儘管資料的質量有所不同,但社會媒體、信用卡購物、人口普查記錄以及大量其他型別的資料,都會有助於收集一個病人的歷史資料,特別是有助於揭示可能對健康產生影響的社會因素和環境因素。

譯自:JAMA online

原著:Griffin M. Weber, etc