無論無處不在的“大資料”概念引起怎樣的聯想,逐步增長的資料規模確是改變著我們和世界的互動方式。這在工業界、政界、媒體、學術界,幾乎任何領域,都是事實。逐漸增強的對大資料進行收集、處理、抽象化,並從中得到啟發的能力,拓寬了我們的知識面。
然而近年來,科學研究領域加速轉變到以資料為核心,是有負面影響的。總結來說就是:稱職的科學研究者需要的能力,和稱職的工業界從業人員需要的能力,越來越無法區分。具有典型惰性的學術界剛剛開始適應這一轉變,而其他領域早已開始大規模鼓勵和獎勵這種能力。不幸的是,這導致了很多有才的準研究者難以在學術界立足,只能投入財大氣粗的工業界的懷抱。
資料的神奇效果
20世紀60年代,物理學家Eugene Wigner發表了他的著作:數學在自然科學界的神奇效果。它論述了抽象的數學概念在上下文中的有效性,遠遠超過產生這些概念的上下文,其差距到了驚人的地步。畢竟,誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎?誰又能想到,抽象固體的旋轉群的編纂幾乎最終導致了物理學家成功地預測希格斯玻色子的存在?
谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira於2009年以“資料的神奇效果”為題發表的文章響應了這一觀點。文章展現其驚人的洞察力:只要有足夠的資料,數學模型的斟酌選擇不再重要—尤其是對他們所研究的自動語言翻譯來說,“比起很少的資料及其精確模型,簡單模型和大量的資料更有勝算”。
如果我們大膽假設這個觀點可以延伸(至少是部分延伸)至自然語言處理之外,那麼僅僅是資料探勘這一項技能都會逐步打敗領域知識。我相信這一預言已被證實:眾多學術領域,有效地處理資料的能力正在取代其他更經典的研究模式。
我並不是說對某一領域的精通已經完全過時。如果不理解粒子相互作用理論,大型強子對撞機(LHC)產生的10Gb每秒的速度將一無用處,就像只有理解物理過程驅動空間爆炸的理論,大型天文望遠鏡(LSST)產生的每晚15TB的原影像資料才能幫助我們理解宇宙學。然而,LHC和LSST反映了越來越普遍的現象:科學研究結果完全依賴對大量資料的精確分析。實際上,我們發現,即使資料量並不足夠“大”,能夠對它們處理、抽象、挖掘和從資料中學習的研究者也在逐步促進科學進步。
新型科學家
從某種意義來說,資料驅動的研究是過去的研究趨勢的簡單延續。自16-17世紀科研分離出亞里士多德哲學,科學進步已基本依賴試驗和觀察。要知道,是第谷16世紀開創性的對天空的研究,促動了17世紀開普勒的行星運動規律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論。科學家始終在努力處理資料,區別只在於這一努力如今正成為科學研究過程的核心。
不過,科學研究逐步以資料為中心已經產生了解決問題的新辦法:進入LHC、LSST時代,善於運用高效能並行資料統計演算法探索大量的群體性資料集的研究者,以及新的統計方法、機器學習演算法、高速程式碼,以前所未有的規模重複進行典型分析的應用,推動了振奮人心的研究。簡而言之,新型科學家一定是精通統計、計算、構建演算法、軟體設計、領域技能(可能作事後使用)的多棲專家。在粒子物理學、生物學、化學、神經科學、海洋科學、 大氣物理學等幾乎所有領域,研究越來越趨向於資料驅動,同時資料收集的速度絲毫沒有放緩的跡象。
科學軟體的基礎作用
科學軟體的共同點,是這些工作都離不開編寫程式碼。高質量的、組織良好的公共程式碼才能對科學過程極為重要的重現產生影響。諸多公共軟體都是關於當前的非再生性科學危機、新的出版形式的需要、新的研究、程式碼和資料公開訪問。此處不再詳談更多。
此處我想詳細討論的是,優化的專業軟體對大型資料集分析和抽象的核心作用,以及它成為現代科學研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發表評論證實了這一觀點(見Gael的簡介),並就公共的,組織良好的健壯的科學程式碼對於現代科學研究的重現性和研究本身的進步都必不可少這一論點進行了例項研究。過去的研究結果,如果只是在論文中簡單提及,而產生這結果的實際過程的程式碼未經組織,這樣的結果就不能作為新的研究的基礎。就像是Buckheit和Donoho曾說的:
學術期刊上的計算科學的文章並不是學術,他們只是學術的幌子。真正的學術是完整的軟體開發環境,以及計算出數字的完整指令集。
公開程式碼看起來像是馬後炮,但是一般來講,僅僅釋出程式碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,“一個程式執行正常,總好過它勉強能正常執行”。讓程式碼對在科學研究之外的作者有用需要相當大的投入。這種專案具有難以估計的價值,就像NumPy專案,Scikit-learn專案,等等。它們為研究者提供一個框架,在此框架下,程式碼可以共享,在github上共同審閱和釋出,以此造福研究社群。
學術界的斷層
這是學術界的弊病:儘管有層次的高質量軟體正成為現在的科學研究模式的核心,並且這些實踐將有助於學術研究的成功,學術界卻非常成功的阻止了這一實踐。“發表或者毀滅”的模式中,論文制約著大多數研究型高校,相當於學術獎勵框架的貨幣,而花費在構建和編寫軟體工具上的時間統統不算是寫論文的時間。這就導致,除非是某種特殊情況,專注於可複用的開放軟體的人很難在學術界獲得晉升的機會。這些可憐的人們,期待著在科學軟體的發展而不是研究論文中獲得成就,往往會發現他們已置身於學術群體的邊緣。
某種程度上,這種斷層一直存在。學術界總獎勵某些技能,而損害其他技能:教學就是一個長期被邊緣化的技能。然而這其中的兩個主要的區別使得學術界的斷層更加令人擔憂:
- 前面提到的構建和編寫軟體工具的技能,正滑向學術獎勵框架邊緣,而它恰恰是現代的研究能否成功的關鍵
- 幾乎全世界都在使用密集資料探勘工具的同時,學術界忽略的不以為然的技術正是工業界最看重最鼓勵的
這場風暴導致技術純熟的研究者漸漸滑離研究而偏向工業界。學術界儘管也存在專注於軟體的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機會。與之相比,工業界吸引力超高:它致力於解決有趣的緊迫的問題,提供優越的薪水和福利,幫助博士後從工作站之間的遷徙中解脫出來,甚至鼓勵基礎課題的研究和發表。這種情況下還能留在學術界簡直是奇蹟。
我所研究的天文學和天體物理領域尤其讓人擔心。LSST專案正在籌備這一個十年底的第一個目標:十年內能夠實時處理每晚30TB的資料,這一目標極其激進。要處理這樣大量的資料,未來幾年,這個專案可能要招募數十名以資料為中心的天文學研究者。考慮到所需技術和當前的薪酬水平,以及學術介面向工程的工作的發展前景,我很懷疑它能夠吸引到足夠的應聘者。
學術界該如何適應
不止我一人在考慮這些問題。我和國內外很多人們討論過文中提到的一些話題,瞭解到有些制定政策的人們和資助機構也正在思考這些嚴峻的問題。但是更現實的問題是怎樣解決這些問題,阻止它惡化。抱怨學術界的文化是學者們的常事,Deidre McCloskey的“學術威望法則”印證了本文的一些觀點:越是實用的領域,越沒有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適用於現在的主題。
我認為威望才是關鍵:學術界採取審慎的措施追趕工業界的腳步,對於資料驅動的研究必不可少的軟體,給予其開發者更多的聲望,才是解決這些問題的辦法。研究者,資助機構和制定政策的人們也可以採取行動來促進這一過程。以下是一些建議:
- 學術刊物持續強調可重現的重要性。可重現性是科研過程本身必不可少的要素,而它依賴於開源的高質量程式碼。將這些程式碼視作論文發表的重要組成部分,能夠提高軟體開發者在學術團體的地位。
- 推動建立終身制教授評價的新標準。新的標準同時考量公共軟體的開發和維護以及傳統的論文發表和教學,這樣投入到編寫整潔的公共程式碼的時間就不會再被遏制。
- 建立並資助新的學術就業體制,幫助博士畢業生、博士後研究員、研究員和終身教授的就業。就業職位應特別看重和獎勵公共的,跨學科的科研軟體的開發,從而為願意構建和維護通用的基礎軟體的研究者提供可行的學術職業發展道路。
- 提高博士後科研職位的薪酬。這個建議可能存在爭議,但現在的薪酬水平根本無法保持下去。NIH職位為應屆畢業的博士後提供的基本工資是每年四萬刀以下。博士後工作七年漲到每年五萬刀。若精通構建和維護軟體工具的應屆博士後就職於工業界,薪水會多出好幾倍,並且工業界尊重他們的計算能力,他們也可以運用這些能力研究自己感興趣的問題。我很擔心,學術界不及時作出這些調整的話,未來幾年的科學研究將遭遇嚴重的障礙。
我們生活在一個振奮人心的時代,加速增長的收集、儲存、處理和學習海量資料的能力,使得我們對世界的科學認識的寬度和廣度都在增加。要保持這探索新事物的節奏,我們需要激勵研究人員安於研究團體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續的發展。
我衷心的感謝眾多參與討論和推動這些想法的同事,尤其是Bill Howe以及Fernando Perez。同時也感謝我的好朋友Will Mari(@willthewordguy)的審閱和反饋。