​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

機器之心發表於2020-12-28
百度正式釋出基於飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領域。

在本月 20 號召開的 WAVE SUMMIT+2020 深度學習開發者峰會上,百度正式釋出了基於飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領域。本次釋出的螺旋槳 PaddleHelix 生物計算開源工具集,提供了包括 RNA 二級結構預測、大規模的分子預訓練、藥物 - 靶點親和力預測、以及 ADMET 成藥性預測等一系列演算法和模型,重點滿足生物醫藥,疫苗設計和精準醫療方面的 AI 需求。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

  • 螺旋槳 PaddleHelix 官網地址:https://www.paddlepaddle.org.cn/paddle/paddlehelix
  • 螺旋槳 PaddleHelixGitHub 地址:https://github.com/PaddlePaddle/PaddleHelix

生物醫藥

在生物醫藥領域,小分子化合物的篩選是非常關鍵的環節。為了設計出某種疾病的特效藥,一方面要找到能夠和疾病靶點結合、具有足夠活性的小分子藥物;另一方面又要保證藥物在人體內能夠正常發生作用,以及滿足一系列額外性質(藥物的吸收,分佈,代謝,排洩,毒性,統稱 ADMET)。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

靶蛋白(Protein)- 藥物配體(Ligand)複合物 (來源:PDBBind-cn.org)

傳統的藥物發現方法包括基於靶點結構的藥物設計(Structure Based Drug Design, SBDD),基於碎片的藥物設計(Fragment Based Drug Design, FBDD),老藥新用 (Repurposing),以及計算機虛擬藥物設計(Computational-Aided Drug Design, CADD)等等。這些方法均存在依賴體內(in vivo)體外 (in vitro) 實驗驗證,或者消耗大量計算資源等問題。因此近年來,基於分子的結構和知識來直接預測親和性的 AI 藥物設計(AIDD)逐漸被廣泛認可和應用。相比於 CADD,AIDD 展現出了效能上的巨大優勢,但其效果同時受到生物計算領域資料量的限制。下面的表格(表 1)展示生物計算一些重要問題的典型資料量,其中綠色的是有標註資料。我們看到,儘管這個領域有大量的無標註資料(僅有分子結構或者序列,沒有性質,或者次級結構),有標註資料卻非常少,難以支撐高質量的深度模型。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

表 1 

在 AI 的其他領域也存在類似問題。以自然語言處理為例,這個領域存在 NER,邏輯推斷,閱讀理解,文字生成等等非常多的子問題。這些問題中的有標註資料量都非常少。但是人類文明中累積了大量的無標註語言文字,這些無標註語料給自然語言處理提供了表示學習(Representation Learning)的機會。在這樣的背景下,BERT, ERNIE 等一系列基於自監督(Self-Supervised)學習的方法被提出。

正是基於此,螺旋槳 PaddleHelix 提出基於表示學習,多工學習(Multi-Task Learning, MTL)和元學習(Meta Learning)來降低深度學習在生物計算中的技術和資料門檻,提升其效果。包括生物大分子(蛋白質,DNA,RNA)或者藥物小分子都由原子或者亞基組成,都可以透過序列,圖,或者三維結構表示。一種自然的想法,是像在自然語言處理領域一樣,利用無標註資料上的自監督學習來最佳化分子的表示,再將其應用到下游任務。同時,生物計算領域存在大量的零散的任務,以 ADMET 為例,有 30~50 個指標需要考慮。這樣的問題中,百度的生物計算團隊也認為多工學習和元學習將會發揮重要作用。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

螺旋槳 PaddleHelix 復現並內建了業界主流的分子預訓練模型(如表 2),以及常用的很多組網工具(CNN, Transformer, LSTM, ResNet,GNN 等等),開發者基於預訓練模型實現自己的模型只需要短短几行程式碼。螺旋槳 PaddleHelix 也提供了一些透過了驗證的,可以有效應用於下游任務的模型,效果如表 2 所示。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

表 2:使用預訓練在分子性質預測中帶來顯著提升

疫苗設計

疫苗是透過把病毒或病菌相關的抗原(通常是蛋白)預先輸入人體,引起人體免疫反應的物質。傳統的疫苗需要體外製備抗原蛋白,通常效率低,難於快速大規模生產,因此可在人體自身內生產抗原蛋白的 mRNA 疫苗受到越來越多的關注。mRNA 疫苗製備速度快、無感染風險,但有一個天然劣勢就是 mRNA 非常不穩定,這與 mRNA 的二級結構相關。mRNA 疫苗設計的關鍵就在於,在不改變翻譯出的抗原蛋白的前提下,設計 mRNA 序列使其二級結構儘可能更穩定。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

mRNA 疫苗示意圖(來源:https://translate.bio/)

百度研究院生物計算團隊從 2018 年開始就開展了 RNA 結構預測和序列設計相關研究,並在 2019 年 7 月和 2020 年 7 月分別發表了 LinearFold 和 LinearPartition 演算法, 將 RNA 結構預測和分析的速度大大提升。其中 LinearFold 能夠在 27 秒內完成新冠病毒全基因組結構分析,比傳統演算法速度提升 120 倍。正是有了之前的積累,百度研究院在短短兩個月就完成了 LinearDesign 的研發, 在 mRNA 疫苗設計上提出了革命性的方法。LinearDesign 能夠在 11 分鐘內完成新冠 mRNA 疫苗序列的設計,設計序列的穩定性和有效性大大提升。如圖所示,左邊是能翻譯新冠 S 蛋白的野生型 mRNA 二級結構,其中存在大量易斷裂的單鏈環。右邊是 LinearDesign 設計序列的結構,斷裂點更少,與野生型序列相比穩定性大大提升。百度研究院 RNA 結構預測與序列設計相關成果在美國 MIT 科技評論,以及美國消費者新聞與商業頻道(CNBC)得到了高度評價,並在 2020 年全球人工智慧峰會(AI Summit)上獲得了 AI For Good(AI 向善)獎。

在螺旋槳 PaddleHelix 中,百度也完整開源了 LinearRNA 系列演算法,目前主要包括 LinearFold 和 LinearPartition,開發者想要呼叫這些強大的工具僅僅需要一行程式碼。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

新冠 S 蛋白的野生型 mRNA 結構和 LinearDesign 結構

精準醫療

精準醫療(precision medicine)的概念是指,根據患者特徵(patient characteristics)實現準確的疾病診斷和分類,從而進行個性化匹配用藥和跟蹤治療。相較於傳統的 one-size-fits-all 治療方案,精準醫療致力於透過臨床資料、生活環境、特別是分子組學資料精確刻畫個體特徵,透過挖掘和探究隱含在多模態資料層面的資訊進行綜合分析和判斷,最終提供更好更適配的藥物選擇和治療方案從而提升患者的治療效果最終提高個體的生存時間和生存質量。

​進軍生物計算!百度釋出飛槳螺旋槳PaddleHelix

部分圖片素材來自網路

螺旋槳 PaddleHelix 也將提供基於多維資料(臨床隨訪資料、蛋白組資料、基因組資料、轉錄組資料、甲基化組資料、小 RNA 資料、單細胞組資料)的表示學習演算法模型、藥物響應模型、疾病預後模型等,旨在幫助行業內的醫療專家、研究人員和從業者更好的利用組學資料和分子特徵更精確的刻畫個體表示做組群區分,從而在精準醫療的三個維度預防、預測、治療(Prevention、Prediction、Treatment)構建更好更準確的醫療模型,幫助到更多的患者得到最好最適配的治療。

結語

在 WAVE SUMMIT+2020 深度學習開發者峰會上,百度集團副總裁、深度學習技術及應用國家工程實驗室副主任,吳甜女士對螺旋槳 PaddleHelix 的發展做了簡短的概述,希望未來與合作伙伴共建,逐步形成一套完整的面向行業的生物計算生態和服務。

我們也期待,螺旋槳 PaddleHelix 的釋出能帶來更多的跨界驚喜,在生物醫藥、精準醫療、疫苗設計等領域發揮出更大的價值。

Powered by Froala Editor

相關文章