分子科學中的機器學習:不會燎原的星星之火?

邱陸陸發表於2017-07-14

繼計算機視覺、語音識別、自然語言處理之後,誰是下一個迎來深度學習的浪潮衝擊的領域?聚集了世界上最聰明頭腦的自然科學領域會不會「首當其衝」?科學家們如何應用深度學習?他們是否擔心被神經網路取代?我們在上海紐約大學主辦的「分子科學中的機器學習方法及應用」暑期學校裡,與三位分子科學教授聊了聊。

機器學習的熱度已經蔓延到了自然科學領域。如果你在今年夏天走進高校物理系的論文答辯現場,會發現「機器學習」成為了物理系論文中僅次於「物理」的高頻詞彙。「沒提到機器學習簡直可以算作文章的一個亮點了」,復旦大學的一位答辯祕書笑道。

除了將機器學習應用於自身研究,科學家們也帶著基礎理論研究者天生的服務精神思考著另一類問題:我們能不能給予機器學習,尤其是深度學習模型可解釋性?能否用自己的知識幫助到機器學習,讓它更高效、更揭露本質、更美?去年,MIT 的物理學家和數學家就聯手釋出了名為《Why does deep and cheap learning work so well?》的論文,探討物理學中常見的對稱性、區域性性等性質如何轉化為非常簡單的神經網路。

今年 6 月,華東師範大學-紐約大學計算化學聯合研究中心(上海紐約大學)主辦了以「分子科學中的機器學習方法及應用」為主題的國際暑期學校。五天的課程結構嚴明,介紹了機器學習方法技術基礎,化學、生物和材料科學領域的計算問題,並展示如何將機器學習方法應用於解決此類問題。授課的講師背景非常多樣化:他們來自理論化學、統計物理、電腦科學、生物資訊學等多個領域,其中很多人自己就是典型的「跨界」學者。組委會成員包括華東師範大學-紐約大學計算化學聯合研究中心主任張增輝教授和紐約大學化學系張穎凱教授,他們的研究方向,生物大分子/過程的理論計算,本身就是一個綜合了物理、化學、生物知識的交叉學科。而另外一位組委會成員,紐約大學的 Mark Tuckerman 教授同時在化學系和庫朗數學學院任教,既是一位理論化學家,也是一位應用數學家。

暑校期間,機器之心受邀前往上海,和組委會的三位分子科學教授聊了聊分子科學中最近燃起的這一點星星之火,我們談到了分子科學研究者如何利用機器學習模型,如何應對機器學習可解釋性的欠缺,以及如何看待機器學習對分子科學的影響。

分子科學中的機器學習

分子科學是一個多學科交叉的知識領域,主要研究分子的結構與功能。分子科學可以被視為化學、生物、材料、藥學等學科的基礎,它主要研究分子的相互作用、結構和各種物理化學性質,具體包括化學鍵的形成與斷裂、生物分子的結構、分子識別、分子間協同相互作用形成複雜材料等問題。

分子科學與機器學習的主要結合點在計算科學領域。計算科學是並列於理論科學與實驗科學的概念,它隨著計算機的興起而發展,主要任務是通過數值模擬來研究實驗物件,幫助研究者獲得實驗物件實時的演化資訊,進而構建清晰直觀的模型。但是傳統的數值模擬方法對一些極為複雜的體系是無能為力的,此時,機器學習憑藉其在高維空間中的刻畫能力,可以進一步幫助研究者對複雜體系進行抽象、簡化與估算。

「機器可讀」的分子結構

我們感興趣的第一個話題是模型的輸入:如何把分子結構表達成計算機可讀的向量或矩陣呢?

Mark Tuckerman 教授就此問題進行了詳細的闡述。他首先提到,分子結構的表達方式是一個非常活躍的領域,科學家們正在積極探討,如果以最終輸入機器學習模型為目的,什麼樣的分子表示法才是最優的。他援引了愛因斯坦的名言「我們應使任何事物都變得越簡單越好,而不僅是比較簡單而已。」(Everything should be made as simple as possible, but no simpler.),很顯然,越簡單的方法越有效。

因此,這個問題的答案取決於研究物件。Tuckerman 教授解釋道,如果研究物件是由數十個原子組成的小分子,那麼用簡單的矩陣表達法將一個原子表達成一個二維或三維矩陣,將原子間的距離的多項式作為元素即可。如果研究物件是更為複雜且柔軟的大分子(即所謂的軟物質,如蛋白質),那麼研究者就需要根據體系特性選擇表達方式,將其結構也一併表達出來。目前學界普遍採用人為構建的描述符(descriptor)來表達複雜體系的結構。分子描述符(molecular descriptor)是由化學家 Todeschini 及 Consonni 定義的概念,「分子描述符將分子的化學資訊編碼為一組有意義的數字。」

張穎凱教授稱,用來描述一個分子的描述符多達幾千種。根據體系的複雜程度,描述符可以按維度分類:一維描述符主要在於統計。研究者們統計大分子中不同的碳原子、氫原子以及各類其他原子的個數,進而得到一維描述符。二維描述符刻畫圖不變數;三維的描述符刻畫圖不變性。有了這些描述符後,研究者就可以按照自己的想法將這些描述符並列起來,組裝成計算機可讀的輸入了。以一維描述符為例,正如自然語言分析中有「詞袋」模型,分子科學中有「原子袋」和「化學鍵袋」模型。描述符的選擇主要取決於模型結構。例如,神經網路本身已經足夠複雜,因此,用最基礎的三圍描述符表達分子,進而讓網路來對其中的潛在結構關係進行推斷,是最為合適的選擇。

模型的輸出和優化函式

張穎凱教授給出了兩個可用於分子科學的機器學習模型的優化目標。

「生物分子的結合親和力(binding affinity)或者說結合的強度(strength)是一個很重要的問題。」張教授回答道。「輸出可以是一個二維向量,一個代表結合的概率,另一個代表不結合的概率,這就讓問題變成了機器學習中的分類問題。」張增輝教授對此做了一個有趣的類比:「分子間的結合自由能就像一對情侶的親密程度。你觀察到他們是否有共同語言、是否足夠了解對方,進而就能對他們的情侶關係會不會天長地久做出預測了。」

另一個很好的例子是溶解度(solubility),它對於製藥行業十分重要。溶解度可以通過實驗測得,然而更多時候研究者希望在製成一種分子之前先對特定結構的分子的溶解度做出預測,機器學習在這項工作中已經取得了很好的進展。

分子科學中的機器學習:不會燎原的星星之火?

張穎凱教授聽取其他教授的演講

相比於傳統方法,機器學習的優勢在在哪裡?

Tuckerman 教授認為機器學習的優勢在於高效和可擴充套件。一方面,如果要對從未見過的分子做能量預測,傳統科學家需要求解極為複雜而昂貴的量子力學方程,而現在的研究者可以利用機器學習繞過量子力學計算進行非常精確而高效的估算。另一方面,分子科學的研究範圍非常廣泛,由幾個、幾十個原子組成的小分子和有複雜結構的大分子,都在研究範圍內。如果用描述外表的方式表徵分子,當研究範圍擴大到大分子時,描述系統就會變得粗糙,從而導致精確度下降。這是機器學習能夠幫到我們的地方:機器學習能夠在小分子上做非常精確的計算,然後將其擴大到蛋白質或者其他大分子上,同樣能獲得精確且有效的結果。

Tuckerman 教授給出了一個具體的例子:「我們可以向模型輸入一些維度並不高的資訊,用很少的變數來表示整個分子的結構。比如用一個維度描述蛋白質的一個結構域(domain)和另一個結構域是否彼此鄰近,用另一個維度描述兩個結構域是否處於粘著斑(adhesion plaque)上。如果處於粘著斑上,兩個結構域之間會互相靠近;反之,如果處於自然狀態,兩個結構域會距離彼此較遠。接下來,用這樣一組變數來描述分子的結構作為輸入,通過訓練得到一個可以用於預測的模型。訓練好的模型可以根據一組描述前所未有的結構的新變數來預測環境的變化(比如蛋白是否在粘著斑上)對蛋白質結構的影響,並利用這些資訊對模型做出有針對性的調整。這個過程並不需要一個複雜的、面面俱到的描述符(descriptor)。」

分子科學中的機器學習:不會燎原的星星之火?

Mark Tuckerman 教授在課堂上

「黑箱」只是解開更大謎團的手段

提及神經網路,Tuckerman 教授十分興奮。「我為神經網路著迷!從某種意義上來說它們簡直有魔力。它們通過一些極為有效的機制執行,作為一個數學家你忍不住想要一探究竟,從數學的角度思考為什麼它這麼好用。」

張增輝教授表示,分子科學和神經網路的最大區別在於,分子科學總是試圖尋找事物間的邏輯關係、現象的理論基礎,神經網路則試圖用一個複雜系統去擬合而不深究其原因。然而最終,再複雜的結構也必須符合物理定律,只不過當系統的複雜度上升,獲得一個能夠解釋整個系統的簡單規律就變得十分困難。

在神經網路之前,科學家在研究蛋白質這類複雜的大分子時已經採用過類似方式。蛋白質相互作用網路(protein interaction network)就是一個例子。生命體系包涵極其多的蛋白-蛋白相互作用,這些相互作用之間形成非常複雜的網路。通過建立蛋白質相互作用網路,可以瞭解其中任何一個相互作用的改變對整個網路的影響。將蛋白質內部的所有相互作用變成網路的輸入訊號,藉由該模型可以發現蛋白質相互作用的生物功能,瞭解疾病產生的原因並找到藥物設計的靶標。

能揭示規律的物理模型永遠是最好的,是科學家們不變的追求目標。無論是普通計算機模擬還是深度學習,都是將過於複雜的、無法直觀找到規律的問題中的某些不能用物理模型精確解釋的部分用機器學習模型替代。而替代的目的仍然是希望能夠幫助研究者揭示隱含的規律,而不是滿足於停留在「黑箱」階段。

幫助我,而非取代我

在訪談最後,我們提到了每一個深度學習應用領域都難免會被問到的問題:深度學習將對你的領域產生何種影響?這一點星星之火會不會以燎原之勢取代傳統方法,甚至應用傳統方法的研究者?

自然語言社群就曾經歷過兩次「顛覆」式的浪潮,第一次是上世紀九十年代,基於統計的方法壓倒式地替代了基於理論的方法。IBM 的著名統計派學者 Fred Jelinek 那句知名的「每有一名語言學家離開我的小組,模型識別率就會上升一些」就是在這樣的背景下提出的。而 2010 年以來,統計方法的領地又一次受到了深度學習方法的猛烈衝擊。最近,還有自然語言社群的知名學者站出來,公開抨擊深度學習社群的研究者缺乏對語言學的基本認識,盲目套用深度學習模型,並用誇張的標題、預印本的形式在正式發表前博取影響力。隨著機器學習的影響進一步擴大,自然科學社群有可能面臨同樣的問題嗎?

三位科學家觀點非常一致,他們認為,自然科學不會受到機器學習的「顛覆」。機器學習會幫助科學家,而不是替代科學家。

Tuckerman 教授分析稱,機器學習能夠在分子科學領域獲得出色的結果,是因為科學家事先運用專業知識完成了大量工作,其中包括對要研究的問題做精確的定義,選擇恰當的方式表達研究的物件,以及清楚哪些性質可能是由共同的先決定律(parent law)決定,這樣即使不清楚定律本身,也能夠在一定程度上確保機器學習模型的有效性。完成這些工作需要科學家對自己的研究物件及相關領域有非常深刻的理解,這個門檻並不是外行人能夠在短期內跨越的。

張增輝教授補充道,在計算機視覺、自然語言分析等領域,機器學習尤其是深度學習能夠快速地開展工作是因為他們的研究物件都十分容易被數字化。而在另一些領域,比如金融與分子科學,涉及的變數太多且太複雜,很難妥善地將全部所需資訊數字化並進行整合。

「我們科學家還沒那麼容易失業」,張增輝教授自信地笑道。

相關文章