以脊椎損傷治療的新進展為例,新軟體可以從早已被遺棄的研究資料中,挖掘資訊併為研究人員提供新的方向。
醫生們發現一個過去未知的關聯,即脊椎損傷病人的長期康復與他們早期手術中的高血壓之間存在聯絡。這看上去不太像什麼醫學新聞 —— 儘管它對於臨床有直接的影響 —— 但重要的是一開始是如何發現這個關聯的。
這個成果並不是出於什麼新的長期研究,而是源自對一項失敗基礎研究進行的元分析,20 年前的這項基礎研究現在價值六千萬美元。這個專案是由加州大學舊金山分校的一群神經學家和統計學家主導,並和一家名為 Ayasdi 的軟體公司合作完成的,其中用到了數學和當時還未發明的機器學習技術。描述這一過程的論文刊登在了《自然通訊》上,從而預示著從失敗科學實驗資料中挖掘醫學重大突破的可能性。
“過去被認為是打了水漂的研究,現在被證實有著巨大的價值”,亞當·弗格森說道,他是加州大學舊金山分校腦和脊椎損傷中心的首席研究員,同時也是論文作者之一。儘管仍有待人體實驗的證實,這一發現引發了一系列有趣的問題 —— 很顯然科學家們是否該釋出他們的原始資料供後人使用;還有相對於展開新的科學實驗,是否應當把時間和經費投入到對舊有實驗的分析上去。
弗格森領導的科研小組從精心重構資料開始,這些資料來自於對 3000 只動物的研究,其中有 300 多隻動物的資料來自俄亥俄大學九十年代中期『多中心動物脊髓損傷』的研究。不僅僅侷限於公開發布的結果,弗格森和他的同事們還聯絡了每位研究人員,向他們要到當時未釋出的資料和實驗筆記。“他們都相當配合,”弗格森說道。“許多其他領域的科學家卻不是這樣 —— 他們感覺你在審查他們。”
也許這些“審查”是出於好心。據《柳葉刀》去年刊登的一篇論文的統計,所有的研究發現中只有不到一半出了成果,剩下的構成了“隱藏資料的長尾”,將很有可能解決科學上重現性的危機。脊髓損傷的研究人員也有自己需要面對的危機。自從針對克里斯托弗·李維癱瘓的研究為這一領域取得一些成就起,之後的二十年間,居然再沒有重大的突破。“沒有研發出藥物,”弗格森說。“甚至都沒有任何達成共識的手術手段。這有點難堪。我們至少應該有所發現。”
然而,研究卻以失敗告終。其中一個原因是變數的總數太多。脊髓損傷相當複雜,所以相對於其它系統而言,人們對它們瞭解得較少的。要想分離出簡單的因果機制不是那麼容易,“這對於發現新的療法而言是真正的挑戰,”弗格森說。因此他和他的團隊想要對舊有的、隱藏的資料再進行一次試驗,這一次使用的技術手段適用於揭開大量變數之間隱藏的聯絡。
他們選擇的工具是由史丹佛的數學家古納·卡爾森(同時也是論文的共同作者)所研發的拓撲資料分析(TDA),這個分析工具用到了幾何拓撲學的概念 —— 通過對高度複雜形狀的研究 —— 找到隱藏在大資料集中的規律。卡爾森同時也是 Ayasdi 公司的總裁及初創者之一,這家公司致力於把 TDA 技術和機器學習技術雙劍合璧,以此找出資料集中變數之間的聯絡。(Ayasdi 是《Fast Company》評選出的大資料領域最具創新力的公司之一)。在弗格森想到用 TDA 技術探索脊髓損傷問題之前,卡爾森和其他研究人員已經成功利用 TDA 技術,從十多年的乳腺癌公開資料集中挖掘出了獨特的基因突變。
Ayasdi 的黑盒模型使它在傳統競爭者中獨樹一幟:將結果畫成網路圖供下一步分析之前,軟體在不受人工調控(或者偏見)干預的情況下搜尋規律。“這恰好與傳統的基於假設的理論相反,”弗格森說。“使用傳統理論的工具,我們永遠也不可能發現同高血壓之間的相關性,因為從上千個變數中一個個試驗下來找到目標幾乎是不可能的。”
這是否意味著人類探索旅程的終結?未來是不是所有的發明創造都會來源於機器對資料的挖掘,而非人類本身的創意?儘管弗格森覺得“理論的終結”這一說法過於誇大,但他仍相信科學方法的第一步 —— 觀察會從根本上因大資料而變得複雜,並且因為機器的介入而變得成熟。或許正像 Ayasdi CEO 古吉特·辛格今年早些時候告訴我的那樣,“以往來說,你的運氣必須足夠好,同時洞察力也不可或缺。然而隨著時間運氣只會越變越差,所以你得依賴機器來替你幹活了。”
在脊髓損傷資料這個案例中,Ayasdi 基於 TDA 的方案很大程度上證實了研究人員已經知道的:藥物沒有效用。然而高血壓對長期恢復所起的消極作用,這一發現對於病患有著直接影響,也就是說,在損傷後和手術前及時用高血壓藥是否能夠改善恢復情況,弗格森和他的同事們想要在加州大學洛杉磯分校馬上驗證這個假設。
長遠來看,弗格森相信追溯性的資料探勘是“一個物有所值的工具”,尤其考慮到相對於展開新實驗,在舊有資料中再次挖掘所省下的費用。“僅僅花了一百多萬美元,我們卻開啟了價值六千萬美元的領域。”