用程式碼描繪出分子世界的壯闊星空,化學家和程式設計師開啟新的征程

微胖發表於2018-04-01

2016 年,製藥公司 Sunovion 分配給經驗豐富的員工們一個不尋常的任務。

在馬薩諸塞州馬爾堡的總部,化學專家們被要求玩一個遊戲,看誰能先找到製造新藥物的最佳線索。他們面前的工作站上有數百個化學結構網路,其中只有十個被標記了相關的生物效應資訊。專家們不得不借助他們在化學和生物方面積累的知識,來對分子進行抉擇和判斷,進而找到可能成為新藥物的候選者。在 11 名參與者中,有 10 位花費幾個小時的時間來完成這項工作。而另一位則在幾秒內輕鬆通過了這個考驗——用演算法來解決。

 這個計算機程式是 Willem van Hoorn 的一個點子,他是創業公司 Exscientia 的首席化學資訊專家。這家公司位於英國鄧迪,嘗試利用人工智慧來設計藥物。Exscientia 希望能夠 Sunovion 構建合作伙伴關係,因此在這一課題上下了很大的賭注。「我很值得信賴。」van Hoorn 說道。20 輪遊戲過後,他總結出了規律,終於放鬆了下來。他的演算法精通一些化學黑魔法,在尋找新藥物的過程中,只敗給過一位專家。

 從那開始,Excientia 和 Sunovion 就攜手展開精神科藥物的研發。「那場比賽非常有助從那些化學研究決策的人手中獲得經驗。」Sunovion 公司的計算化學部門主管 Scott Brown 說道。

 在工業和學術領域,越來越多的團隊把目光瞄向了計算機,希望藉助計算機技術探索這個極其廣闊的化學世界,Exscientia 只是這其中的一員。化學家估測,約有 1060 種具有類藥物特性的複合物是可以合成的,這些分子比太陽系中原子還要小很多。

值得慶幸的是,合適的計算機演算法可以對海量複合物的特性進行分類、識別以及比對,幫助研究人員快速高效、經濟實惠地根據目標找到最佳候選藥物。支持者認為,這些策略可以提升藥物的安全性,降低藥物在臨床試驗中失敗的機率。不僅有助於新型治療方法的發現,還能擴充人們在化學領域的研發空間,開闢之前未被開發或是被認為貧瘠的研究領域。

 然而,也有許多藥物化學專家懷疑這是一場炒作,他們並不相信具有不可言喻的複雜度的化學問題可以僅被一行程式碼解決。即便是那些認可 AI 的人們在嘗試中也經歷過失敗:計算機合成的複合物可能充斥著很難真實用於藥物合成的組成成分,例如 3-或 4-原子環,或是有活性基因會引發安全警報。「當研究人員不瞭解這個領域時,這些計算機方法的實現可能會遭受一些非議。」van Hoorn 說道,「他們想出的那些複合物令人感到可笑。」不過他也表示,人類專家的確可以對這些數碼設計師起到調和作用。「我認為,如果電腦科學家能和浸淫在化學領域的人合作,那麼之前的一些想法就能夠真正發揮出作用。」

 分子世界的壯闊星圖

 為了在化學世界航行,一張地圖是非常有幫助的。2001 年,瑞士伯爾尼大學的化學家 Jean-Louis Reymond 開始使用計算機繪製儘可能多的空間可能性。16 年過去了,他積累了世界上最大的小分子資料庫,這是一個巨大的虛擬 1660 億個化合物的集合。這個名為 GDB-17 的資料庫包含了所有由 17 個原子組成的有機分子——這也是 Reymond 的電腦所能處理的資料。「讓一臺電腦編輯一份化合物的清單,可能需要超過 10 個小時。」Reymond 說。

 為了理解這些藥物合成的眾多可能性,Reymond 已經想出了一種方法來組織他的化學宇宙。他從元素週期表中獲得的靈感後,計劃將化合物按照相關屬性組合在一個多維空間中。這些元素的位置按照 42 個特徵來分配,例如每個化合物裡有多少個碳原子。

 對於每一種已經上市的藥物,都有成千上萬種化合物的分子結構與它類似,差別只在於多了氫原子或者是多了一個雙鍵。其中某些的治療效果可能比目前被批准的藥物效果更好。通常而言,化學家們不太可能遍歷所有的可能性,就像 Reymond 所說:「你不可能用一支筆和一張紙在獲得這些同分異構體。」

 幸運的是,Reymond 和他的團隊可以利用計算機尋找與核定藥品結構相似的化合物。通過使用一種特殊的藥物作為研究的起點,團隊可以在短短 3 分鐘內梳理出資料庫中所有的的 1660 億個化合物。在一項理論驗證研究中,Reymond 以一種結合尼古丁乙醯膽鹼受體的化合物開始,計算機列出了 344 種相關化合物的清單。研究小組合成了三種,其中兩種可以有效地啟用受體,並對治療肌肉萎縮有所幫助。這種方法就像使用地質地圖尋找掘金點,Reymond 說:「你需要一些方法來選擇你要挖掘的地方。」

 另一種方法是利用計算機提供大量的潛在掘金點,可以避免了不知從何開始的困境。在藥物的研究中,這意味著在電腦模擬中篩選大量的化學資料庫,尋找與特定蛋白質結合的小分子。首先,研究人員必須利用 X 光決定結合點。接著,利用分子對接演算法,電腦可以通過複合集合來找到最適合的結合方式。

 隨著計算能力的爆炸式增長,這些演算法的能力也得到了大幅提升。在 2016 年,加州大學的化學家 Brian Shoichet 及他的團隊利用這一方法尋找一種新的止痛藥,這也表明了這一方法的潛力。該研究小組篩選了超過 300 萬種可獲取的化合物,有選擇性尋找降低呼吸頻率的藥品。研究人員很快將這個名單中刪選出最適合的 23 種化合物,以便後續的研究。

 用程式碼描繪出分子世界的壯闊星空,化學家和程式設計師開啟新的征程

利用計算機和資料篩選化合物

 實際上,Shoichet 還是舊金山一家生物科技公司 Epiodyne 的聯合創始人。他們還計劃利用這項技術研發更合適的止痛藥。他的團隊還對浩如煙海的分子結構的進行分析,有些結構從未出現過,但容易通過人工的方式合成。

 而且,目前已有商業化的藥物開發公司在嘗試這種方法:位於劍橋的生物技術公司 Nimbus Therapeutics,正在將天然化學物質的特性從自然環境轉移到電腦螢幕上。目前還不清楚這些藥物是否最終可以合成藥物,但該公司的 CEO Don Nicholson 表示,至少已經完成了一種藥物的設計方案,「這也是我們未來需要攻克的方向。」

 這些從螢幕上得到的初步結果正在動搖 Shoichet 關於化學空間的核心假設:只有那些已經存在的,更容易合成藥物的領域才值得關注。如今這些模擬出來的分子結構具有良好特徵,甚至有些人認為到別處尋找是一種浪費時間的做法。「在我的職業生涯中,我一直相信這點:只要能行得通就行,即使沒有太多證據。」Shoichet 說,「我開始認為這些分子構成的星系裡充滿了黃金。」

 化學家和程式設計師的征途

 這些資料搜尋工作已經被充分地嘗試並測驗,但結果是計算機只能根據有跡可循的指導線索行事。在藥物發現領域,目前最前沿的科技來自機器學習,這種演算法能夠根據資料以及經驗自主學習,逐步達到預計的學習效果,並能發現人眼觀察不到的藥物結構。目前大約有 12 家公司正在研發機器學習驅動的藥物發現演算法,並與大型的藥物公司進行合作測試。

 Andrew Hopkins 是 Exscientia 的 CEO,他深知這些新途徑的威力所在。平均來說,一種新藥從發現,到優化,到臨床前研究需要 4.5 年,化學家們經常會合成上千種化合物,來保證最後能夠得到足夠的製藥線索,即便是這樣,這些線索能夠推向市場的可能性依然微乎其微。Exscientia 嘗試將一些演算法進行組合(其中一個是前文提到的在 Sunovion 的研究中驚豔眾人的演算法),這些演算法的組合或許能夠將藥物研發的 4.5 年降低至 1 年,並且能夠有效減少前期需要準備的化合物的數量。

 用程式碼描繪出分子世界的壯闊星空,化學家和程式設計師開啟新的征程

「人機結合能夠打敗所有人類,而且能打敗所有演算法」

2015 年,Exscientia 在大日本住友製藥舉辦的一場比賽中鏖戰了 12 個月之久。大日本住友製藥是 Sunovion 的母公司,總部位於日本大阪。Exscientia 的研究者們訓練 AI 工具使其學會尋找兩個 G 蛋白偶聯受體結合構成的藥物分子,發現演算法只需合成不到四百個化合物就能找到一個符合要求的選項。Hopkins 表示,這些新出現的藥物正在接受精神疾病相關的臨床試驗。自今年五月以來,這家公司已經與位於巴黎的 Sanofi 公司和位於英國布倫特福德的 GlaxoSmithKline 簽署了總價上億美元的合同。

 Numerate CTO Brandon Allgood 表示:「除發現藥物線索外,機器學習演算法還能幫助要富研發人員儘早拋棄無用的化合物。」Numerate 是一家位於加州聖布魯諾的 AI 藥物設計公司。他說,如果該化合物最終會因為有毒或者需要好幾個月人體才能吸收的話,那麼把它造出來並且進行測試是完全沒有意義的,而 AI 系統只需 1 毫秒就能夠判斷該化合物到底值不值得繼續進行。Allgood 在深入化學領域之前曾是一名受過專業訓練的宇宙學家。今年,Numerate 已經與製藥公司談成兩單合作,其中一單的合作物件是位於法國敘雷訥市的 Servier 公司,在這裡,Numerate 對 AI 演算法發現的藥物進行心力衰竭與心律失常的臨床試驗。

 產業投資越來越狂熱,但計算方法仍需增強。Reymond 的資料庫和其他的藥物資料庫相比已經非常龐大,但它也還是隻覆蓋到了藥物宇宙中最微小的部分。儘管 Reymond 的資料庫中已經有 1.66 兆種化合物,但他離目標的距離仍非常遙遠,就好像一個想數清天上所有的星星的天文學家,但卻迄今為止只找到了一顆的。

目前,過濾化合物的方式依賴於觀察蛋白質與化合物的結合,若要達到好的療效,需要結合物具有非常精確的晶體結構,其中用到的資料需要大量的時間、金錢、以及科研專家才能獲得。同時,這些演算法還需要想方設法地避免與運動中的蛋白質「誤結合」,而且演算法對化合物的推薦程度的排序能力也不盡如人意。在這些問題上,機器學習系統能夠發揮的作用的瓶頸取決於訓練資料集的質量,並且當遇到他曾經沒有遇到過的化合物時,表現非常不好。更有甚者,整個基於神經網路的應用程式是一個黑盒子,我們目前還不知道為什麼該系統能夠如此地行之有效。

 很多計算方法會經常推薦在實驗室難以生產的化合物,化學家們因此需要艱苦地搞明白這些化合物的配方,這一過程可能需要幾個月甚至更久。即是這樣,化學家們也不能確定該化合物成形後是否有用。Reymond 的演算法對於一個化合物有效與否的預判準確率僅在 5%–10%,這意味著化學家們需要合成 20 種系統判斷為可行的化合物,才能保證有一種是有效的。Reymond 說:「我認為人類藥物宇宙大爆發的瓶頸在於對化合物的合成過程。」出於這個原因,他最近將他的化學物質資料庫在保證藥物效能覆蓋的前提下縮小到 1000 萬種容易合成的化合物。

 藥物公司 Relay Therapeutics 的首席科學家 Mark Murcko 認為,藥物計算領域不需要過分關注新演算法的研發,而是應該重視訓練資料的質量。他說:「優化訓練模型的最佳方法之一就在於給他們投喂越來越多、越來越好的資料。」實際上,Relay 以及其他一些藥物公司中的化學家們正在緊密地和計算科學家們合作,將計算科學家和演算法提出的化合物構想進行合成,並將合成結果作為未來做決定時的參考資料。

 對於 Hopkins 來說,上述合作至關重要。科學家們花費了好幾十年才讓機器人能夠與人類國際象棋選手較量,才有了 1997 年 IBM 的深藍系統打敗 Garry Kasparov。但這次失敗並不代表國際象棋賽事的終結。反之,Kasparov 創造了一支由人類和 AI 共同組成的國際象棋團隊。「人機結合能夠打敗所有人類,而且能打敗所有演算法。」Hopkins 說,他希望在醫藥行業,也能同樣發生資料紅利、創造力以及常識的結合,「我相信我們正處在 Kasparo 和深藍交鋒的時代。」用程式碼描繪出分子世界的壯闊星空,化學家和程式設計師開啟新的征程

相關文章