大資料之傷--小資料思維

pythontab發表於2013-01-17

1980年之前,臨床醫師們主要依賴“經驗”,“直覺”,以及“觸控不到的線索”來判斷一個發燒了的小孩子到底是由較輕的疾病(如感冒)還是由比較嚴重的疾病(如急性肺炎或腦膜炎)引起的。換句話說,他們靠直覺來看病。在1980年,一個由研究者組成的小組研究了那些有經驗的兒科醫生是如何為他們的病人診斷的。他們發現了那些傑出的醫師在直覺中參考了“輸入資訊”,而那些缺乏經驗的醫師在試圖可靠地試用這些“輸入資訊”時就顯得過於主觀了。

   在隨後的研究中,研究人員從精確度和客觀性兩個方面上加強了他們的系統。在這個系統中,那些正在接受培訓的兒科醫師能夠像有經驗的醫師那樣接觸到很多因嚴重疾病而導致發燒的兒童。事情發生了根本上的變化:直覺的建立被質化和量化地形成了一種形式,並且這種形式可以被那些經驗並不豐富的醫生所利用。如今,幾乎所有正在為發燒兒童看病的醫生都在證實這精妙的發現。

   如果我們把目標確定為為每位兒童的每次就診都提供最好的治療,那麼我們需要的就不僅僅是直覺和專業的技能了,因為人無完人。基於證據的醫療方法(EBM)透過把臨床研究整合進治療準則來幫助醫師提高治療水平。然而就普遍意義來說,EBM是基於“小資料”的研究--與動輒數十萬或數百萬的大資料不同,一個大型的EBM則是包含了數千例病例的系統。在這樣的小樣本規模系統中輸入資訊必須被良好地定義和形式化,隨之而來的結果便是包含了所有這些資訊的治療準則在解釋病人與病人之間的差異時就顯得力不從心。因而EBM有時被人們嘲笑為“菜譜式治療”,醫生們只是機械地遵循著這些治療的“配方”來治病。雞肉與菠菜對於一些人來說也許是頓美味,但是當我們要為一位素食主義者上菜時又該怎麼辦呢?

   大資料的容量足夠用來創造更加個性化的“治療菜譜”。利用一個容量為5億人的資料集,你可以為一個體重超重且高膽固醇每天必須服用阿司匹林和立普妥的35歲男人,或者為一個與上述情況完全相同但是體重偏輕的人定製治療方案。

   大資料也可以允許我們透過在粗略的未經處理的資料集中逐條比對來發現微小但是強有力的線索,從而進行分析研究。小資料集中通常不能處理粗糙的原始資料,因為它不能分辨“心梗”與“心肌梗死”的區別,即便他們指的是同樣的事情。並且由於在小資料集中只能使用單一的術語,使得我們無法做出確鑿的歸納。同時小資料集也無法支援需要識別“心梗”與“心肌梗死”是同一種術語的研究。小資料集同樣無法支援我們使用很細節的線索作為輸入,因為它們在資料集的發生具有太大的隨機性--確鑿的歸納是無法從這樣的小樣本資料集中得到的。

   目前有越來越多的爭議在討論大資料是否正在取代直覺在醫療中的地位。無論怎樣,大資料仍是我們最大的希望--計算機可以在模仿人類專家直覺方面跟進一步,那時我們就再也不用依賴EBM這樣的小資料集了。真正的問題並不是大資料正在威脅醫療中的直覺,而恰恰相反,是在於我能未能做到這一點。我們如今在醫療領域並未過於依賴大資料,因為這的確需要大資料量,而醫學研究者們手中並沒有真正的大型臨床資料集。

   建立,維護,標識以及保密臨床臨床資料集的代價太高昂了。洩露這樣資料集資訊的懲罰有很多,而建立這樣資料集的利益卻幾乎不存在。即便是政府支援的健康資訊流通專案通常也不進行資料統計。取而代之的是,這些系統被用作讓登陸者進入一個外部系統,一次只能取回一位患者的資料,並且得到的資料通常是摘要形式的。大資料分析是無法在這樣的體系中實現的。

   然而,大資料量醫療資料集受到的最大壁壘是醫療資訊中盛行的所謂“最佳實踐準則”,這一準則已經落後於其他行業一二十年了。醫療資訊體系仍在持續強化使用陳舊的資料屏障,而這屏障正是維持“小資料集”研究的基礎。在這個體系中,只有透過稽核的,標準的,被編輯過的資料才能被接收--這裡沒有任何粗糙的原始資料!隨之產生的資料集便是小資料集,因為屏障式的處理過程是強化資料來源的瓶頸,由於缺乏一致性,許多可用的資料被拒之門外。這個屏障創造了同質化的資料,而排除了能使系統真正有用的多樣性,這就如同白麵包一樣--一個被濾去了穀物最好營養物質的空空的淨化盒。如果在大資料中使用了這樣的屏障,谷歌和亞馬遜就不可能成功,原始的大資料正是他們成功的原因。

   除非每個醫生都同時擁有無與倫比的直覺,否則計算機就應該用來提供更好的醫療。如果我們在處理過程中摒棄小資料思維,並開始建立真正的大資料,那麼大資料在醫療支援中將會發揮更加巨大的作用。


相關文章