AI助力新藥研發 騰訊釋出「雲深智藥」平臺

騰訊技術工程發表於2020-07-09



AI助力新藥研發 騰訊釋出「雲深智藥」平臺

在上海舉辦世界人工智慧大會前夕,騰訊公佈了進入藥物研發領域的兩項最新進展。在應用側,騰訊釋出首個AI驅動的藥物發現平臺「雲深智藥(iDrug)」,整合騰訊 AI Lab和騰訊雲在前沿演算法、最佳化資料庫以及計算資源上的優勢,提供覆蓋臨床前新藥發現流程的五大模組,包括蛋白質結構預測、虛擬篩選、分子設計/最佳化、ADMET性質預測(即將開源)及合成路線規劃。目前平臺上已經執行十個左右研發專案,包括對抗新冠病毒藥物的虛擬篩選和性質預測(正在對篩選結果進行實驗驗證)。

官網體驗地址:


在研究側,騰訊 AI Lab 在蛋白質結構預測的世界最權威測試平臺CAMEO上,半年內五次奪得月度冠軍,領先眾多國際知名研究團隊。蛋白質結構預測是藥物設計的基礎,對了解生物體內分子間的相互作用也至關重要,騰訊這款自研演算法在困難案例(Hard)上提高非常顯著(比權威方法提高10%以上),其創新思路也已被「雲深智藥」平臺採用,將在新靶點發現、疾病機理研究上發揮更大應用價值。

AI助力新藥研發 騰訊釋出「雲深智藥」平臺

平臺名稱「雲深智藥」源自唐詩《尋隱者不遇》的「只在此山中,雲深不知處」,新藥的發現過程正是如此。一款新藥的誕生關乎人類健康福祉,但傳統藥物研發耗時耗力,每年上市的新藥僅數十種。隨著新冠疫情的全球蔓延,快速低成本藥物研發成為行業共同挑戰,而大資料探勘和機器學習等技術驅動的藥物發現方法的潛力與價值越加凸顯。

騰訊AI Lab表示,「藥物研發的數字化、智慧化變革已經到來。人工智慧與大資料在藥物設計領域的應用被列為十三五重大新藥專項的關鍵創新技術之一,也是國家新基建背景下的技術攻堅方向。秉承科技向善的理念,雲深智藥將充分發揮先進技術優勢,為醫藥產業發展創新提供平臺與機遇。」

平臺的虛擬篩選和ADMET性質預測兩個工具模組已開放免費使用,蛋白質結構預測、分子設計/最佳化、合成路線規劃等模組將陸續在年內上線。值得關注的是,該平臺的自研演算法已在國際比賽中獲得證明,並將對一些基礎模組開源。

自研冠軍級創新演算法:作為全球唯一的蛋白質結構預測自動評估平臺,CAMEO自2012年上線以來收集了全球最頂級、應用最廣的自動化蛋白結構預測伺服器(server),成為最權威的蛋白質結構預測伺服器的評判標準。目前競賽團隊包括了來自華盛頓大學、有「蛋白設計天才」之稱的David Baker教授團隊,來自密歇根大學,曾奪得蛋白結構預測CASP六連冠的Yang Zhang(張陽)教授團隊等。

「雲深智藥」平臺採用了騰訊AI Lab自研的預測蛋白質結構的新思路,該演算法在2020年起加入CAMEO,與35支頂級學界與企業隊測試競賽,騰訊比分大幅超越,保持了月度及周度冠軍,證明了底層演算法的技術價值。前文提到,騰訊AI Lab提出的新方法在困難案例(hard)上的提高非常顯著,其比業內公認的權威方法Robetta提高了10%。在藥物虛擬篩選和ADMET性質預測上,AI Lab也透過自研演算法,在多個公開資料集上取得了較高精確度、突破了業界標準。
AI助力新藥研發 騰訊釋出「雲深智藥」平臺
縱軸 lDDT 為蛋白結構預測質量打分,越高表示預測的蛋白模型與真實蛋白結構越相似

基礎模組開源:目前ADMET預測模組即將開源大規模自監督分子圖預訓練GX模型,分子生成模型預計也將在下半年開源。GX模型是業界開源的首個基於深度圖神經網路大規模的分子圖預訓練模型,模型基於大量無標籤的小分子資料,透過構造原子/化學鍵級別的分子自監督任務,學習化學性質相關的底層資訊,並利用訊息傳遞模型提升了模型泛化性。在11個分子屬性預測資料集上,GX模型與主流演算法評測後,與SOTA(已知最優)演算法相比效果微調結果平均提升6%。


平臺功能覆蓋新藥發現全流程


臨床前新藥發現流程要經歷從靶點的發現和驗證,苗頭化合物的發現,先導化合物的發現和最佳化直至臨床候選化合物的確認及開發。「雲深智藥」平臺全面覆蓋了臨床前新藥發現的全流程,讓研發人員更便捷開展研究。
AI助力新藥研發 騰訊釋出「雲深智藥」平臺
雲深智藥平臺功能模組覆蓋從「靶點識別和確定」到「候選化合物確認及開發」等整個流程

新藥發現是一個複雜的系統工程,第一步是靶點識別和確認,即找到藥物在體內的作用位點;而確定靶點蛋白質的結構是其中的關鍵工作,被視為藥物研發的重要基石。比如一個蛋白參與了某個疾病併成為關鍵通路上的重要一環,那麼當研究人員瞭解該蛋白的結構後,就可以有針對性地設計藥物分子來調節蛋白的功能。實驗測定蛋白質結構往往難度大、週期長、費用高;透過深度學習模型預測出蛋白質結構以及功能後,計算機便可以更快的從數億的海量小分子中,快速而有針對性地找到潛在的苗頭化合物。

「雲深智藥」平臺採用的蛋白質結構預測方法在準確度上達到國際領先水平,得益於兩項關鍵技術上取得突破。一是基於自監督學習的蛋白質摺疊方法,不依賴同源序列,而是直接從序列資料庫中透過自監督學習,學得共進化的模式,從而能夠從無到有地產生出含有共進化資訊的偽同源序列,並最終讓這些蛋白能夠有效摺疊;二是透過一種基於深度學習的可迭代方法,有效整合模板建模與自由建模,首次提出了動態的、可迭代的氨基酸對特異性的約束條件,顯著提高了建模的精度,從而更好的摺疊蛋白。

新藥發現的第二步是針對靶點篩選苗頭化合物。與傳統的實驗篩選相比,計算方法進行的虛擬篩選無需消耗化合物樣品,能極大節省人力物力。基於配體的藥物設計方法(ligand-based drug design,LBDD)是虛擬篩選的常見方法之一,是指從已知的有活性的配體小分子結構出發,學習和建立分子結構與活性之間關係的模型,用來預測新化合物的活性。由於很多靶點的已測得的化合物活性資料非常有限,嚴重製約了預測模型的準確性。AI方法有望解決這一問題:例如「雲深智藥」平臺的虛擬篩選模組首次將元學習和深度神經網路演算法用於LBDD任務,透過AI「遷移」從其他靶點上面學習到的知識(如分子區域性結構對靶點結合強度的影響),應用在目標靶點上來提高模型預測精度。目前該演算法在數千個實驗資料集上預測精度(預測活性與實驗測量活性的相關性)的中位數從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60%,突破業界標準。

進入藥物研發後期,預測分子的ADMET性質尤為重要(包括藥物的吸收、分配、代謝、排洩和毒性)。據統計,因ADMET性質問題引起的藥物後期失敗的比例高達60%。因此,及早發現並排除成藥性欠佳的分子能夠大幅降低後期藥物研發失敗的風險。基於AI的ADMET性質預測能夠讓藥物化學家快速地進行分子結構改造,最佳化分子理化性質,縮短藥物研發的週期,降低實驗測試成本。「雲深智藥」平臺的藥物小分子ADMET屬性預測模組已在多個資料集上比學術界現有最好模型提高3%~11%,在合作伙伴的反饋中,平臺的自研演算法精度超過現有商業軟體6%~37%不等。同時,平臺採用了注意力等機制視覺化分子中的子結構對結果的影響,提供模型的可解釋性。此外,平臺還可提供本地版本等靈活的部署形式,保障使用者的資料安全。


平臺提供資料庫-演算法-算力一體化服務


AI賦能藥物研發,演算法、算力、資料三要素缺一不可、且相輔相成。先進演算法對已有大資料深度挖掘並分析資料間的隱含關係。這個過程不僅直接助力新藥發現,還整合了大量已有資料庫,同時促進新資料的產生和積累,轉而更好的最佳化演算法;最佳化的演算法反過來也能降低模型對資料量的依賴,提高模型的範化性;而騰訊強大的算力支援則加快了資料庫儲存查詢、演算法迭代速度,並大大縮短使用模型的運算時間。
AI助力新藥研發 騰訊釋出「雲深智藥」平臺
雲深智藥平臺除了在演算法領域不斷創新,還提供算力和資料庫的一體化服務支撐。

資料方面,分子大資料是藥物研發中的基礎設施。現有的藥物分子公開資料集,以PubChem和ChEMBL等為代表,其來源多樣。但也由於資料來源於不同機構的不同實驗環境,存在資料難以對齊,欄位缺失較多,總體質量不佳的問題,從而難以直接用於開發預測模型。雲深智藥平臺使用的分子大資料,基於現有公開資料集,進行了多個環節的精細清洗整理工作,得到可以用於直接構建深度學習模型的藥物分子大資料集,並且已在多個藥物研發的專案中得到應用驗證,清洗過程對多個專案的結果均有很大的提升作用。清洗過後的、打通多個資料庫的大資料集已在陸續上線中。

算力方面,騰訊云為雲深智藥平臺提供資料庫服務,藥企、科研機構登入平臺即可開展研究,不需要再自行部署計算資源,從而能快速地將AI能力引入現有的研發流程中。

雲深智藥是騰訊以AI技術賦能藥物發現的首個產品,平臺上的各個功能模組和分子資料庫將持續進行迭代,更多的藥物發現功能模組和分析功能也將陸續上線。藥企、科研機構等不僅能夠免費試用平臺搭載的核心功能,也可以和騰訊共同開發定製化的AI工具。目前騰訊已經和多家藥企達成合作、將AI模型應用到實際藥物研發專案中。未來,騰訊AI Lab將在國家新基建的背景下,繼續推動人工智慧、大資料等技術與藥物研發需求的深度結合,以先進的技術能力賦能產業、推動我國藥物研發行業的高速發展。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559354/viewspace-2703372/,如需轉載,請註明出處,否則將追究法律責任。

相關文章