巨大的科學難題需要大資料解決方案

OReillyData發表於2016-04-26

在勞倫斯伯克利國家實驗室的超級計算中心,我領導國家能源研究科學計算中心NERSC的資料和分析小組。在這個角色上,我追蹤需要大資料分析來解決的前沿科學問題。超過6000個使用者使用了NERSC的超級計算平臺來解決各類科學問題,從天文學到有機生物學,從分子一直到亞原子物理。典型的資料集從十萬兆位元組到帕位元組不等。


儘管NERSC已經有先進的計算和儲存資源可以處理複雜邏輯,但是真正的挑戰是在於選擇可擴充套件的分析方法和軟體框架。在本文中,我的科研合作者和我評論了在科學資料分析中最難的一些問題,希望能夠邀請更多的資料科學社群參加到正在發展中的的科學研究工作中。


問題一:為宇宙中所有的天體建立目錄



640?wx_fmt=jpeg

智利帕拉納爾天文臺所與銀河系,這是世界上最先進的地面天文觀測站
來源:歐洲南方天文臺/約翰·科洛西莫,Flickr

每一天,世界各地的天文望遠鏡都在進行“巡天”以收集影象資料集。這些資料集包含關於大量恆星、星系和類星體等宇宙天體的位置和結構的有價值資訊。不幸的是,這些資料集不便於科學家們進行訪問或者共享。


由勞倫斯伯克利國家實驗室的天體物理學家、統計學家和電腦科學家組成的團隊為了尋求這一他們認為科學界最大的圖模型問題的解決方案,正在開發一個全新的、完全可生成的宇宙模型,稱為“塞萊斯”(Celeste)。通過對龐大的圖形模型使用複雜的變分推理(一個高可擴充套件的演算法)以及分散式蒙特卡洛馬爾科夫鏈推理(MCMC-Markov Chain Monte Carlo),塞萊斯專案旨在為所有在可見宇宙中的天體建立統一的目錄。這意味著從500萬億位元組的影象資料或是約一萬億畫素資料中推理O(1000億)數量級的引數。


主要合作者:大衛·施萊格爾(David Schlegel,勞倫斯伯克利國家實驗室),喬恩•麥考利夫(Jon McAuliffe,加州大學伯克利分校),以瑞恩·亞當斯(Ryan Adams,哈佛大學)


問題二:確定宇宙學的基本常量


640?wx_fmt=jpeg


由NyX code產生的宇宙模擬,用來在大規模平行計算器上進行大規模宇宙學模擬.來源:由普拉伯特(Prabhat)和博倫·洛林(Burlen Loring)完成的資料視覺化,勞倫斯伯克利國家實驗室,經許可使用


如今宇宙中的物質結構自從宇宙大爆炸開始便受到將物質牽引到一起的重力的引力作用以及暗物質的“負壓力”膨脹的影響。為了理解宇宙的組成(例如,那裡有多少物質,以及暗物質是由什麼組成的),宇宙學家研究了從天文調查中得出的星系分佈。隨後,他們的觀察結果與涉及幾萬億粒子的理論模擬的預測結果進行了比較。但是,這裡就有一個分析問題:由於資料集的大小從30到300萬億位元組不等,用於特徵化物質結構的統計資料計算起來太過密集,他們包含了星系的叢集、2度關聯計算以及3度關聯計算。


最近我們開發了BD-CATS系統,這是一個資料叢集演算法DBSCAN的高可擴充套件版本,它可以在超級計算平臺上完整聚集數萬億粒子資料集。BD-CATS正在幫助理解在等離子物理(關於帶電粒子和流體與電場和磁場相互作用的研究)中粒子加速背後的機制,並在宇宙學的資料聚合能力方面呈現出優越的效能。


主要合作者:黛比·巴德(Debbie Bard,勞倫斯伯克利國家實驗室),澤里亞·盧基奇(Zarija Lukic,勞倫斯伯克利國家實驗室),莫斯托法·帕特瓦里(Mostofa Patwary,英特爾)


問題三:特徵化變化氣候中的極端天氣


640?wx_fmt=jpeg




CAM5 0.25度模擬中水蒸氣的視覺化圖形
來源:由普拉伯特(Prabhat)和邁克爾·魏納(Michael Wehner)完成的資料視覺化,勞倫斯伯克利國家實驗室,經許可使用


氣候變化問題是人類最為緊迫的問題之一。在NERSC,我們對於研究未來全球變暖會如何影響氣候的各種方式均深感興趣(遠遠不止是平均海平面上升和全球平均溫度上升)。我們還感興趣的是,在極端天氣事件的統計資料中檢測是否將會有氣候變化。比如颶風,在未來我們認為颶風會變得更弱還是更強?我們認為四級和五級颶風會更頻繁的登陸嗎?天氣資料分析中的一個很大的挑戰性問題是涉及到因果推理:我們是否可以識別異常事件並將它們和一些機制建立因果關係?這些機制在未來會怎樣變化?


通過分析大量資料集來識別極端天氣模式與視訊資料中的語音檢測相類似,我們不僅需要處理一百萬個網格點,每個點又有一大堆變數。解決這樣的挑戰需要我們開發出高可擴充套件的模式識別能力,讓我們可以挖掘100萬億位元組到1帕位元組的大規模時空資料集。我們已經成功應用了MapReduce框架(在極端天氣分析工具包(Toolkit for Extreme Climate Analysis)中實現),並且正在積極探索使用深度學習來解決這一問題。


主要合作者:普拉伯特(Prabhat,勞倫斯伯克利國家實驗室),邁克爾·魏納(Michael Wehner,勞倫斯伯克利國家實驗室),威廉·德魯·科林斯(William D. Collins,勞倫斯伯克利國家實驗室)


問題四:從科學文獻中抽取知識


640?wx_fmt=jpeg


位於紐約約克高地的沃森系統,由IBM公司開發來源:由Clockready提供於公共維基多媒體


在網際網路的時代,對於我們來說在一瞬間釋出、交流以及共享結果變得十分平凡。然而,對海量資訊的便捷訪問帶來了獨有的問題:對於個人而言,對在一般科學以及特定主題的最新進展進行追蹤變得難以管理。此外,所有的資訊來源並不是同等可信的,我們需要在得出重要的結論之前考慮的資訊的數量和質量。最後,科學界迫切需要對科學文獻進行自動整理、挖掘和質量評估。


與這個問題關聯的資料分析的挑戰很大程度上與處理出版物中的非結構化資料有關。比如說文字、表格、圖表、影象、原理圖、等式以及引用。每一個科學領域都有一個約定的分類法,可能編寫成文也可能沒有。因此,關鍵的挑戰是要從出版物中根據主題(比如說疾病或者療法)抽取科學實體,以知識圖譜的形式建立實體之間的關係,並且基於多條線索為實體和關係進行加權。最後,支援基於知識圖譜反饋的流利問答功能,並要具有相當置信度和關聯推理,這將對改進更廣泛的科學界的生產力十分關鍵。許多有發展前景的技術眼下正在開發之中:IBM 沃森系統慶祝了廣為人知的勝利,它在Jeopardy!(一個美國人機智慧問答)大賽中戰勝了人類專家。而由史丹佛開發的DeepDive資料管理系統在一些科學領域展示了令人期待的結果。未來隨著這些技術以及類似技術的更多的定製化開發,征服更多的科學領域只是時間問題。


主要合作者:亞當·阿金(Adam Arkin,勞倫斯伯克利國家實驗室),安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),普拉伯特(Prabhat,勞倫斯伯克利國家實驗室)


問題五:研究關於語言生成的大腦皮層機制


640?wx_fmt=jpeg


DARPA的基於系統的神經技術新興療法專案旨在通過開發記錄和分析大腦活動的近實時神經模擬的療法來降低神經性疾病的影響程度
來源:由馬薩諸塞州總醫院和德雷珀實驗室在維基公共對媒體上提供


數十年間,人類一直試圖理解人類大腦的神經活動是如何看似毫不費力地生成語音的。大腦的哪一部分功能性組織負責計算並生成語音?功能獨立的大腦區域是如何互相溝通來產生協調模式並進而產生語音?從語言的組織到發音在大腦皮層上有哪些互動?在這個獨特的人類能力上的深入理解對於語音修復學的發展的是十分重要的,語音修復學旨在為失去語音能力的人恢復該能力。


理解大腦皮層生成語音的過程要求記錄大面積皮質上高時空解析度的神經活動。記錄人類的這一活動只能通過侵入性腦電圖技術來完成,這使得資料非常稀有。我們最初的調查旨在將大腦活動的時空模式“翻譯”成有意連續的語音。然而這些資料有長時間的時間依賴性、大量的噪聲並且受到樣本數的限制。當前的資料集大小約在10兆位元組。此外,將來自多個發言人樣本的資料組合起來是具有挑戰性的,但是也是最後成功的關鍵所在。


我們使用深度神經網路在對感覺運動皮質上的資料基於57個母音子音音節的分類上取得了最前沿的結果。此外,為了實現一個混合式連續分類系統,我們正在調研遞迴網路。對於最終為人們開發的發聲器來說,用於語音生成相關的神經分析的計算元件必須是實時的且非常低能耗的。


主要合作者:克里斯·布沙爾(Kris Bouchard,勞倫斯伯克利國家實驗室),愛德華·昌(Eddward Chang,加大舊金山分校),彼得·徳內斯(Peter Denes,勞倫斯伯克利國家實驗室)


問題六:為生物成像而實現的谷歌地圖


640?wx_fmt=jpeg


耐甲氧西林金黃色葡萄球菌(MRSA)以及一個死人的中性粒細胞的掃描電子顯微圖.來源:由NIAID_Flickr在公共維基多媒體上提供


生命是以多尺度的形式組織和持續的,從單個蛋白質到細胞器,細胞,以及微生物群到組織,器官到生物有機體。捕獲這些資料在規模上有巨大差異,從巨集觀和中觀到微觀和奈米級,這要求多模態成像。然而,沒有一個單獨的成像技術可以捕獲整個範圍。此外,每一種技術提供的在不同長度、時間、解析度上有些許互補的資料


這一特定問題的資料分析挑戰包括分割技術、生物實體分類技術的開發,以及實現一個以地圖為中心的資料庫用以執行量化分析。這項工作的最終目標是整合所有的相關時空資訊(一個大小約在100兆位元組到1萬億位元組的資料集)到一個通用的座標系,從而得到統計上有意義的定量的地理資訊量(例如計算一個形狀的表面積或者體積),並且將生物實體分類到一個視覺化資料庫,使得它們可以通過這些地理資訊的模式進行查詢。這使得生物學家可以使用定量的資訊,通過三維結構標識、分子/代謝組成以及核心高分子成分(如蛋白質)的本地化等,來區分不同的疾病的狀態和發展情況。


主要合作者:曼弗·雷德奧爾(Manfred Auer,勞倫斯伯克利國家實驗室),華金·科雷亞(Joaquin Correa,勞倫斯伯克利國家實驗室)


問題七:執行極大規模基因組序列拼接


640?wx_fmt=jpeg


脫氧核糖核酸(DNA)的雙螺旋鏈。
來源:Pixabay


從頭測序序列拼接是現在基因學中最重要的計算之一。這個過程涉及到將短小的、隨機抽樣的“鳥槍”基因序列轉化成一個連續的、準確的複雜基因組的重構。複雜基因組的重拼接要求大量序列資料。因此,由於海量的計算需求以及拼接大規模基因組和巨集基因組的演算法複雜度,從頭拼接已經不能跟上洪水般的資料(大約在1到10萬億位元組)的步伐。例如,高重複度的小麥基因組比人類的大五倍,從結合複雜度和規模來看,這樣的拼接、對映是特別具有挑戰的。


在從頭測序基因組拼接中,起始處理和資料約簡(K-mer分析法)是受到頻寬約束的,隨後的徳布魯金圖(de Bruijn graph)的構造和遍歷是受到延遲約束的,序列對齊是受到計算量限制的。許多針對低直徑圖開發的圖處理技術不適用於徳布魯金圖,因為它有非常低的度和大直徑。我們通過HipMer系統來解決這一挑戰。這是一個高效能、端對端的基因序列拼接器,通過並行地在一個超級計算機的多叢集上同時執行程式碼,從而簡化和加速基因組拼接以及對映。以前需要花費數月的處理過程,比如拼接整個人類的基因組,現在能在大約8分鐘之內完成。


主要合作者:伊萬格洛斯·喬格納斯(Evangelos Georganas,加州大學伯克利分校),艾登·布拉克(Aydin Buluc,加州大學伯克利分校),丹·洛克薩(Dan Rokhsar,加州大學伯克利分校),凱西·伊列克(Kathy Yelick,勞倫斯伯克利國家實驗室)


問題八:採用精確的毒理學


640?wx_fmt=jpeg


淡水加殼水蚤被用於研究化學物質對生態的影響,最近也被用於研究對人類的影響.來源:由基爾大學的簡·米歇爾斯(Jan Michels)博士提供,經允許使用


大約80%的新藥因為不可預期的對人體的毒性而失敗。此外,每年有超過500種的基礎工業用化學品被開發,其中的大部分將不會接受任何種類的毒性檢測。毒理學是一種我們所依賴的科學原理,來保護我們不受癌症、出生缺陷、心血管以及神經退化性疾病的侵害。對它們的風險評估仍然依賴於一個較小集合的模型物種,每種化合物要花費超過五年的時間以及超過150萬美元。通過風險評估,我們瞭解到了致命劑量,以及在一些情況下的最小致病劑量。但是我們對於毒理機制一無所知。


我們每個人有獨特的生活史、遺傳基因、微生物以及生理特徵,它們相互作用產生我們個性化的對周邊環境挑戰的易受影響的部分和適應恢復的能力。毒物對於胎兒的影響與成人完全不同,在一個基因背景下有效的藥物可能對於另外一個人來說極少的劑量都是致命的。


儘管我們不能在每一種遺傳基因背景,甚至是每一種最終的受眾物種上測試每一種化合物,但是我們可以通過可得到的、價效比高的資料將毒物與毒理畫像以及中毒後的分子狀態關聯起來。我們可以認識個體易受性的基礎,並將我們的易得的疾病和毒性反應對映到整個生命樹上。利用生物科學的潛力來達到準確的毒理學測試將使得在產品的開發前期就可以進行精確的分析和風險評估,有助於減少開發的開銷。


這個問題天生就是一個計算問題,並對我們的社會和星球是一個巨大的挑戰。我們對於這一挑戰的最主要的解決方案是分子系統毒理學(在多物種環境下暴露生物體):我們以一小群易馴服的生物為模型進行測試,然後使用定量的生物進化工具(包括針對多物種分析的新形式的張量回歸、應用量子計算的路徑發現、深度學習以及基於隨機森林的回顧學習機)來對公共祖先和所有的現存物種做出預測。這一方案是通過對映和利用大約18萬億位元組的高容量資料集來完成的。在兩年之內,我們預期這些資料集的大小將會增長到1帕位元組。


主要合作者:本·布朗(Ben Brown,勞倫斯伯克利國家實驗室),約翰·科爾伯恩(John Colbourne,英國伯明翰大學)以及環境學和毒理學協會


問題九:尋找新設計材料


640?wx_fmt=jpeg



部分被孔雀石覆蓋的銅礦石和赤銅礦
來源:由Didier Descouens在公共維基多媒體上提供


技術創新很大程度上受新材料的發現所驅動。我們經常被給到一組理想中的材料屬性(例如:硬度、透明度、電導率、可承受電壓等),並要求發現具有這些屬性的材料的挑戰。如今的計算機模型可以近似可靠地預測材料的屬性,並且有收集了上千種這類預測的資料庫可供使用。例如,Materials Project 是一個公開可訪問的資料庫,該資料庫在NERSC收集了成千上萬種材料的資訊。下一步是分析這一龐大的資料集(大約100萬億位元組),測試和發現新的解釋材料行為的科學原理,展現複雜的資料(例如,週期性三維水晶),並將發現和開發新材料所需要的時間從現在的大約20年減少到很短的時間。


材料的自動化分析要求我們解決兩個關鍵問題:自動化特徵學習以及高維迴歸。一旦這些問題被解決了,那麼我們可以想像一個線上系統,它能自適應地探索材料部分選定的設計空間來決定最有前景的值得模擬和製造的材料。


主要合作者:安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國家實驗室),克里斯丁·佩爾鬆(Kristin Persson,勞倫斯伯克利國家實驗室)


問題十:決定物質的基本成分


640?wx_fmt=jpeg


歐洲粒子物理研究的大型強子對撞機(LHC)的CMS檢測器內部檢視,大型強子對撞機是一個粒子加速器和碰撞器。人們希望大型強子對撞機成為世界上最大的能量最高的粒子加速器。
來源:由Tighef在公共維基多媒體上提供


高能粒子物理旨在從最基本的亞原子層面瞭解宇宙的祕密。儘管我們的瞭解已經進步了不少,並在最近發現希格斯玻色子後達到一個高峰,但是我們知道仍然有許多關鍵的未解之謎需要解決,比如暗物質的來源以及重力在萬物理論中扮演怎樣的角色。探索這些未解之謎需要最龐大最複雜的實驗設施。比如,大亞灣反應堆中微子實驗就是這樣一個例子,它旨在推進我們對於中微子的瞭解。中微子是由衰減中的放射性元素生成的,比亞原子粒子少一個電子。另外一個例子是大型強子對撞機,它有所有粒子加速器中的最高能量,旨在發現從未見過的粒子和相互作用。


這些裝置使用了數十億管道的模式和異常檢測器,以納秒的精確度收集資料,產生了極大規模的資料管道。其資料集大小從上百萬億位元組到上百帕位元組,快速而準確的分析是很有必要的。這一領域已經應用“模式檢測”技術有一段時間了,但是用它們直接對物理事件在原始資料的規模下進行分類仍然是一個挑戰。我們目前使用深度神經網路來學習新的資料的高層次表達方式。轉化後的資料將會被用於快速的資料分析,包括訊號和背景源的視覺化和特徵化。


主要合作者:克雷格·塔爾(Craig Tull,勞倫斯伯克利國家實驗室),瓦希德·佩姆奇(Wahid Bhimji,勞倫斯伯克利國家實驗室),彼得·薩多夫斯基(Peter Sadowski,加州大學歐文分校)


作者:普拉伯特(Prabhat)

普拉伯特在勞倫斯伯克利國家實驗室以及美國能源部經營的國家能源研究科學計算中心NERSC帶領資料和分析服務小組。他的研究方向包括資料分析(統計學、機器學習)、資料管理(並行讀寫、資料格式、資料模型)、科學視覺化以及高效能運算。普拉伯特在2001年獲得布朗大學電腦科學碩士學位,1999年在印度新德里理工學院所獲得電腦科學與工程學士學位。他目前在加州大學伯克利分校的地球與行星科學系就讀博士學位。


640?wx_fmt=jpeg


閱讀原文( read more ) 獲得更多資訊。

相關文章