騰訊 AI 醫學進展破解“禿頭”難題,登 Nature 子刊!
整理 | 夕顏
出品 | CSDN(ID:CSDNnews)
人到中年,也許不到中年,不少人就已經被禿頭問題困擾,貴為英國皇室,也沒辦法阻擋禿頭這項“光榮的家族傳統”。很多人認為,連皇家都治不了這種歷史源遠流長的疾病,看來那就不是差錢的事,禿頭是真的難治!
禿頭是難治,但科學醫學發展日新月異,這不,禿頭星人的福星來了!
騰訊 AI Lab聯合團隊首次破解禿頭關鍵因素“SRD5A2”酶結構
11月17日,騰訊公佈了一項人工智慧助力藥物發現的新進展。
通過騰訊自研的提升蛋白質結構預測精度的新方法,聯合研究團隊首次解析了II型5a還原酶(SRD5A2)的三維結構,揭示了治療脫髮和前列腺增生的關鍵藥物分子“非那雄胺”對於該酶的抑制機制,這將有助於深化研究相關疾病的病理學機制及藥物優化。
此次,騰訊 AI Lab 採用“從頭摺疊”的蛋白質結構預測方法幫助解析了SRD5A2晶體結構,並通過自研AI工具“ tFold”有效提升了蛋白質結構預測精度,在科研突破中發揮了核心作用。除了在SRD5A2結構中的應用,這套方法還可以擴充應用於蛋白質分子和病理學機制的相關研究中。
登上 Nature 子刊
這項聯合研究成果於近日登上了國際頂級期刊 Nature 子刊《 Nature Communications》。論文題為《人體類固醇II型5a還原酶與抗雄激素藥物非那雄胺的結構研究》。
論文連結: https://www.nature.com/articles/s41467-020-19249-z
該論文由南科大生物系魏志毅副教授課題組與匹茲堡大學張誠教授、新加坡 A*STAR 研究所範昊研究員、騰訊 AI Lab 黃俊洲博士帶領的研究小組合作完成。本次得到權威學術期刊發表及評審的高度評價,也驗證了該成果對藥物研發的創新價值。
為了更精準地預測SRD5A2 蛋白的三維結構,騰訊 AI Lab 科研團隊採用了“從頭摺疊”(de novo folding)方法。
《Nature Communications》的一位評審對此創新方法給予了這樣的評價:
作者能用預測的分子置換(MR)模型來確定晶體結構,這一點非常有趣。本評審認為該技術確實非常出色,整個X射線晶體學界將從該方法中受益匪淺。
很多人看到這些專業術語可能還是一頭霧水,SRD5A2是什麼東西?“從頭摺疊”是什麼技術?AI工具“ tFold”又是怎麼發揮作用的?為什麼這些技術對於解決禿頭問題意義重大?瞭解這些問題的答案,我們需要先了解一些導致禿頭問題的病理常識。
人為什麼會禿頭?
首先,我們要知道,人為什麼會禿頭。
在人體內,性激素有促進性器官成熟、副性徵發育及維持性功能等作用。
二氫睪酮是人體中已知最強的雄激素,對於人體的發育和生理活動至關重要,但同時也需要保持合理的平衡。一方面,二氫睪酮控制著男性性器官的發育,水平過低將導致男性性徵缺陷。另一方面,水平過高又是導致前列腺增生和脫髮的罪魁禍首。
合成性激素依賴類固醇還原酶,二氫睪酮即由 SRD5A2 催化合成。因此,當患者因為二氫睪酮水平過高而出現前列腺增生和脫髮問題時,可以通過抑制 SRD5A2 來降低患者二氫睪酮水平。作為SRD5A2 的高效抑制劑,非那雄胺(finasteride)被廣泛用於治療這類疾病。
然而現實中,儘管 SRD5A2 具有重要生理作用,但其高解析度結構資訊卻十分缺乏,導致 SRD5A2 催化二氫睪酮合成的機理以及非那雄胺抑制 SRD5A2 酶活的機制並不清晰。
這是由於 SRD5A2 具有獨特的七次跨膜結構,其與人類全部已知結構的蛋白在結構上存在較大差異,難以通過“模板建模”(template-based modeling)方法獲得初始構型來解析晶體資料。同時,又因為 SRD5A2 是一類多次跨膜蛋白,使得傳統的用於獲取蛋白質晶體相位資訊的“重原子替代”(Heavy-atom derivatization)方法亦難以奏效。
“從頭摺疊”新方法破解晶體學難題
到這裡,我們基本上可以搞清楚了,為解決禿頭問題,找到一個簡單的方法為SRD5A2“建模”,搞清楚它的結構資訊是非常關鍵的一步。
為了解決這一難題,騰訊 AI Lab 科研團隊採用了難度更高的“從頭摺疊”(de novo folding)方法來預測 SRD5A2 蛋白的三維結構,並將其用於“分子置換”(molecular replacement, MR)的初始構型來解析晶體資料。
所謂“從頭摺疊”,是相對於“模板建模”的一種蛋白質結構預測方法。“模板建模”是目前最普遍的蛋白結構預測手段,但有一個使用前提——人類已知的蛋白結構資料庫(即PDB)當中,必須存在和預測的蛋白相似的結構,否則就無法使用。而騰訊AI Lab採用的“從頭摺疊”方法則跳出了這個限制,可以不依賴於模板來預測蛋白結構。
但是在這裡又存在一個問題:此前,通過“從頭摺疊”方法預測的蛋白質結構精度不高,難以滿足晶體資料解析的精度需要。
為了獲得更高精度的“從頭摺疊”的結構模型,騰訊採用了自研AI工具——tFold 工具,為分子置換方法提供相位,繼而解析確定2.8Å 原子級別精度的SRD5A2晶體結構。
這一結果能直接推進我們對體內 SRD5A2 活性失調引發的各類疾病的理解,進而為基於 SRD5A2 結構的藥物開發提供更多有價值的參考資訊。
自研冠軍級 tFold 工具突破蛋白質結構預測精度
騰訊 AI Lab 自研的 tFold 工具正是破解 SRD5A2 蛋白結構這一重要難題的關鍵。
為了提升“從頭摺疊”方法(又稱“自由建模”)的精度,tFold 工具通過三項技術創新,實現了蛋白結構預測精度的大幅提升。
多資料來源融合
首先,實驗室研發了“多資料來源融合”(multi-source fusion)技術,來挖掘多組多序列聯配(multiplesequence alignment, MSA)中的共進化資訊。因為蛋白序列的資料庫有多個,在不同的資料庫中,採用不同的檢索方法以及不同的引數下,相同的輸入序列可能對應不同的MSA,但這些MSA都包含有意義的共進化資訊,因此需要通過一定手段將其合併所以,使用此手段可以實現這樣的效果。
深度交叉注意力殘差網路
然後,藉助 “深度交叉注意力殘差網路” (deep cross-attention residual network,DCARN),這是一種面向強噪聲或者高度冗餘資料的特徵學習方法,其核心在於利用互相交叉的2D注意力機制,來更有效的捕捉遠端的殘基對相互作用。這種2D注意力機制的表現能力,比通常的深度卷積神經網路更強,因此能極大提高一些重要的蛋白2D結構資訊(如:殘基對距離與取向矩陣)的預測精度。
模板輔助自由建模
最後,通過一種新穎的“模板輔助自由建模“(Template-based Free Modeling, TBFM)方法,將自由建模(Free Modeling, FM)和模板建模(Template-based Modeling, TBM)生成的3D模型中的結構資訊加以有效融合,從而大大提高了最終3D建模的準確性。
在研究方面,tFold 平臺已在國際公認最權威的測試平臺CAMEO上顯露出價值。騰訊 AI Lab 於2020年初在CAMEO平臺註冊了自動化蛋白結構預測伺服器 tFold server,並自2020年6月起至今一直保持周度(圖1)、月度、季度、半年度冠軍。
在應用方面,tFold server的公測版也已經在騰訊「雲深智藥」平臺釋出。
官網連結: https://drug.ai.tencent.com/console/cn/tfold
在這個平臺上,使用者可以手動輸入待預測的氨基酸序列或從本地上傳FASTA 格式的序列檔案。在經過一定時間的計算之後,使用者即可得到使用“從頭摺疊”方法預測得到高精確度蛋白結構(下圖)。
tFold server的3D Modeling輸出頁面。左邊部分為從頭摺疊得到的3D蛋白模型;右邊部分是該3D模型在給定的預測殘基對距離矩陣下的偏差。
醫療AI大浪淘沙,但藍海依然遼闊
本論文中解決禿頭問題的關鍵工具tFold所依託的「雲深智藥」平臺,是騰訊釋出的首個AI驅動的藥物發現平臺,整合了騰訊 AI Lab和騰訊雲在前沿演算法、優化資料庫以及計算資源上的優勢,初衷是幫助使用者大幅度減少尋找潛在活性化合物的時間和成本。
目前,「雲深智藥」的五大模組已覆蓋臨床前新藥發現全流程,包括蛋白質結構預測、分子生成模組、虛擬篩選、ADMET預測和合成路線規劃模組。
據瞭解,該平臺的逆合成演算法也已取得了一定進展,計劃於明年上線,以及其它小分子和大分子藥物發現功能模組也將逐步上線。
除藥物研發以外,騰訊 AI Lab 也在影像篩查、病理診斷、病理研究等多個醫療領域持續探索,也有了一些成熟的應用實踐,比如中國首款智慧顯微鏡,宮頸液基細胞(TCT)標本臨床樣本觀察、篩選、標記功能,能夠準確區分神經膠質瘤(大腦最常見腫瘤)的不同亞型並進行分級的演算法,等等,都是騰訊 AI Lab的應用成果。
隨著2018年颳起的醫療AI熱,像騰訊「雲深智藥」這樣的醫療AI平臺還有很多,有的背靠大型科技企業,有著充足的研發資金與技術支援,有的術業有專攻,企業小而精,專注於技術的落地與應用。
2019年,大浪淘沙,醫療AI的融資額總體呈降低趨勢,醫療AI熱暫緩,但頭部公司的融資額在增加,留下的是實力派。據IDC統計資料,到2025年人工智慧應用市場總值將達到1270億美元,其中醫療行業將佔市場規模的五分之一。如今,醫療AI市場也和眾多AI領域一樣冷靜下來,進入沉澱期,這對藥物研發和病理研究領域來說是件好事,因為AI在這片領域還大有可為,尤其經過此次新冠疫情,AI在醫學領域的價值更是得到了實踐的驗證。
誰能在這片藍海中搶下一城,成為醫療AI領域的“霸主”,還要憑技術研究實力,以及最終的實踐應用能力說話,我們且靜觀其變。
相關文章
- Nature子刊主編談AI+醫療的顛覆性潛力 | 騰訊AI Lab學術論壇演講AI
- 從頭設計抗體,騰訊、北大團隊預訓練大語言模型登Nature子刊模型
- 《Nature》子刊收錄宣武醫院頭頸CTA血管重建最新成果,AI重塑臨床流程AI
- AI成像新標準,僅1%原始資料可達最佳效能,通用醫學基礎模型登Nature子刊AI模型
- 九大成像模式一鍵解析,生物醫學影像AI再迎突破!微軟、UW等BiomedParse登Nature子刊模式AI微軟
- 精確屬性控制,湖大、西電從頭藥物設計AI方法,登Nature子刊AI
- LeCun轉帖,AI精確計算宇宙「設定」,登Nature子刊LeCunAI
- 奈米級精度,病毒感染1h內即可檢測到,南方醫科大學細胞核AI工具登Nature子刊AI
- ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態AI
- 無聲的AI:昇騰AI如何用大模型破解手語學習的難題?AI大模型
- 僅幾秒,準確推斷蛋白動力學資訊,山大、北理工等AI模型RMSF-net登Nature子刊AI模型
- 準確率84.09%,騰訊AI Lab釋出Interformer,用於蛋白質-配體對接及親和力預測,登Nature子刊AIORM
- 登Nature子刊,哈佛醫學院釋出迄今最大計算病理學基礎模型,適用30+臨床需求模型
- 改進蛋白突變穩定性預測,清華龔海鵬團隊AI蛋白工程模型登Nature子刊AI模型
- 兼具精度與效率,微軟基於AI的新電子結構計算框架登Nature子刊微軟AI框架
- 騰訊AI醫療窘境AI
- 從計算機視覺向醫療AI,上海交大謝偉迪釋出多項成果,登Nature子刊/NeurIPS/CVPR等計算機視覺AI
- 保真度高達~98%,廣工大「AI+光學」研究登Nature子刊,深度學習賦能非正交光復用AI深度學習
- AI助力腦機介面研究,紐約大學突破性神經語音解碼技術,登Nature子刊AI腦機介面
- 效率提高近百倍,山大團隊AI新方法解析複雜器官空間組學,登Nature子刊AI
- 準確率達95%,混合深度學習搜尋奈米生物材料,登Nature子刊深度學習
- 騰訊 AI Lab X NATURE Conference:AI與機器人的42個大問題AI機器人
- 篩選數十億化合物庫,華盛頓大學藥物AI虛擬篩選平臺,登Nature子刊AI
- 蛋白質功能預測新SOTA,上海理工、牛津等基於統計的AI方法,登Nature子刊AI
- 準確預測蛋白質功能新SOTA,中南大學推出全新深度學習模型,登Nature子刊深度學習模型
- Nature 子刊,糾纏資料有雙重效應,武大、北大「量子糾纏」研究新進展
- 中國AI登上Nature子刊:能“讀懂”病歷、會推薦診斷,準確度超人類醫生AI
- 精準預測RNA可變剪接,浙大多模態深度學習模型SpTransformer登Nature子刊深度學習模型ORM
- 準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊ORM模型
- 準確、快速地從頭預測RNA 3D結構,港中大、復旦等深度學習方法RhoFold+登Nature子刊3D深度學習
- AI 醫療:騰訊的神秘新版圖AI
- 「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體相互作用評分方法登Nature子刊AI
- 18個月,開創AI藥研先例,Insilico公開其首款AI藥物研發全過程,登Nature子刊AI
- 高效準確預測DDI,福大、元星智藥團隊解釋性藥物AI模型,登Nature子刊AI模型
- 來自科技進步一等獎的肯定:騰訊破解萬億引數大模型訓練難題大模型
- Nature子刊,基於量子實驗資料進行機器學習,用於解決量子多體問題機器學習
- 整合多組學資料,華大基因團隊圖神經網路模型SpatialGlue登Nature子刊神經網路模型
- LLM學習原子「結構語言」,生成未知化合物的晶體結構,登Nature子刊