騰訊 AI 醫學進展破解“禿頭”難題,登 Nature 子刊!

CSDN資訊發表於2020-11-20

在這裡插入圖片描述

整理 | 夕顏
出品 | CSDN(ID:CSDNnews)

人到中年,也許不到中年,不少人就已經被禿頭問題困擾,貴為英國皇室,也沒辦法阻擋禿頭這項“光榮的家族傳統”。很多人認為,連皇家都治不了這種歷史源遠流長的疾病,看來那就不是差錢的事,禿頭是真的難治!

禿頭是難治,但科學醫學發展日新月異,這不,禿頭星人的福星來了!

騰訊 AI Lab聯合團隊首次破解禿頭關鍵因素“SRD5A2”酶結構

11月17日,騰訊公佈了一項人工智慧助力藥物發現的新進展。

在這裡插入圖片描述

通過騰訊自研的提升蛋白質結構預測精度的新方法,聯合研究團隊首次解析了II型5a還原酶(SRD5A2)的三維結構,揭示了治療脫髮和前列腺增生的關鍵藥物分子“非那雄胺”對於該酶的抑制機制,這將有助於深化研究相關疾病的病理學機制及藥物優化。

此次,騰訊 AI Lab 採用“從頭摺疊”的蛋白質結構預測方法幫助解析了SRD5A2晶體結構,並通過自研AI工具“ tFold”有效提升了蛋白質結構預測精度,在科研突破中發揮了核心作用。除了在SRD5A2結構中的應用,這套方法還可以擴充應用於蛋白質分子和病理學機制的相關研究中。

登上 Nature 子刊

這項聯合研究成果於近日登上了國際頂級期刊 Nature 子刊《 Nature Communications》。論文題為《人體類固醇II型5a還原酶與抗雄激素藥物非那雄胺的結構研究》。

論文連結: https://www.nature.com/articles/s41467-020-19249-z

該論文由南科大生物系魏志毅副教授課題組與匹茲堡大學張誠教授、新加坡 A*STAR 研究所範昊研究員、騰訊 AI Lab 黃俊洲博士帶領的研究小組合作完成。本次得到權威學術期刊發表及評審的高度評價,也驗證了該成果對藥物研發的創新價值。

在這裡插入圖片描述

為了更精準地預測SRD5A2 蛋白的三維結構,騰訊 AI Lab 科研團隊採用了“從頭摺疊”(de novo folding)方法。

《Nature Communications》的一位評審對此創新方法給予了這樣的評價:

作者能用預測的分子置換(MR)模型來確定晶體結構,這一點非常有趣。本評審認為該技術確實非常出色,整個X射線晶體學界將從該方法中受益匪淺。
在這裡插入圖片描述

《Nature Communications》期刊評審評論原文節選

很多人看到這些專業術語可能還是一頭霧水,SRD5A2是什麼東西?“從頭摺疊”是什麼技術?AI工具“ tFold”又是怎麼發揮作用的?為什麼這些技術對於解決禿頭問題意義重大?瞭解這些問題的答案,我們需要先了解一些導致禿頭問題的病理常識。

人為什麼會禿頭?

首先,我們要知道,人為什麼會禿頭。

在人體內,性激素有促進性器官成熟、副性徵發育及維持性功能等作用。

二氫睪酮是人體中已知最強的雄激素,對於人體的發育和生理活動至關重要,但同時也需要保持合理的平衡。一方面,二氫睪酮控制著男性性器官的發育,水平過低將導致男性性徵缺陷。另一方面,水平過高又是導致前列腺增生和脫髮的罪魁禍首。

在這裡插入圖片描述

圖源:視覺中國

合成性激素依賴類固醇還原酶,二氫睪酮即由 SRD5A2 催化合成。因此,當患者因為二氫睪酮水平過高而出現前列腺增生和脫髮問題時,可以通過抑制 SRD5A2 來降低患者二氫睪酮水平。作為SRD5A2 的高效抑制劑,非那雄胺(finasteride)被廣泛用於治療這類疾病。

然而現實中,儘管 SRD5A2 具有重要生理作用,但其高解析度結構資訊卻十分缺乏,導致 SRD5A2 催化二氫睪酮合成的機理以及非那雄胺抑制 SRD5A2 酶活的機制並不清晰。

這是由於 SRD5A2 具有獨特的七次跨膜結構,其與人類全部已知結構的蛋白在結構上存在較大差異,難以通過“模板建模”(template-based modeling)方法獲得初始構型來解析晶體資料。同時,又因為 SRD5A2 是一類多次跨膜蛋白,使得傳統的用於獲取蛋白質晶體相位資訊的“重原子替代”(Heavy-atom derivatization)方法亦難以奏效。

“從頭摺疊”新方法破解晶體學難題

到這裡,我們基本上可以搞清楚了,為解決禿頭問題,找到一個簡單的方法為SRD5A2“建模”,搞清楚它的結構資訊是非常關鍵的一步。

為了解決這一難題,騰訊 AI Lab 科研團隊採用了難度更高的“從頭摺疊”(de novo folding)方法來預測 SRD5A2 蛋白的三維結構,並將其用於“分子置換”(molecular replacement, MR)的初始構型來解析晶體資料。

所謂“從頭摺疊”,是相對於“模板建模”的一種蛋白質結構預測方法。“模板建模”是目前最普遍的蛋白結構預測手段,但有一個使用前提——人類已知的蛋白結構資料庫(即PDB)當中,必須存在和預測的蛋白相似的結構,否則就無法使用。而騰訊AI Lab採用的“從頭摺疊”方法則跳出了這個限制,可以不依賴於模板來預測蛋白結構。

但是在這裡又存在一個問題:此前,通過“從頭摺疊”方法預測的蛋白質結構精度不高,難以滿足晶體資料解析的精度需要。

為了獲得更高精度的“從頭摺疊”的結構模型,騰訊採用了自研AI工具——tFold 工具,為分子置換方法提供相位,繼而解析確定2.8Å 原子級別精度的SRD5A2晶體結構。

在這裡插入圖片描述

SRD5A2晶體結構
![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20201120082711202.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NzZG5uZXdz,size_16,color_FFFFFF,t_70#pic_center)
SRD5A2的催化和抑制機制

在這裡插入圖片描述

SRD5A2反應期間動態

這一結果能直接推進我們對體內 SRD5A2 活性失調引發的各類疾病的理解,進而為基於 SRD5A2 結構的藥物開發提供更多有價值的參考資訊。

自研冠軍級 tFold 工具突破蛋白質結構預測精度

騰訊 AI Lab 自研的 tFold 工具正是破解 SRD5A2 蛋白結構這一重要難題的關鍵。

為了提升“從頭摺疊”方法(又稱“自由建模”)的精度,tFold 工具通過三項技術創新,實現了蛋白結構預測精度的大幅提升。

多資料來源融合

首先,實驗室研發了“多資料來源融合”(multi-source fusion)技術,來挖掘多組多序列聯配(multiplesequence alignment, MSA)中的共進化資訊。因為蛋白序列的資料庫有多個,在不同的資料庫中,採用不同的檢索方法以及不同的引數下,相同的輸入序列可能對應不同的MSA,但這些MSA都包含有意義的共進化資訊,因此需要通過一定手段將其合併所以,使用此手段可以實現這樣的效果。

深度交叉注意力殘差網路

然後,藉助 “深度交叉注意力殘差網路” (deep cross-attention residual network,DCARN),這是一種面向強噪聲或者高度冗餘資料的特徵學習方法,其核心在於利用互相交叉的2D注意力機制,來更有效的捕捉遠端的殘基對相互作用。這種2D注意力機制的表現能力,比通常的深度卷積神經網路更強,因此能極大提高一些重要的蛋白2D結構資訊(如:殘基對距離與取向矩陣)的預測精度。

模板輔助自由建模

最後,通過一種新穎的“模板輔助自由建模“(Template-based Free Modeling, TBFM)方法,將自由建模(Free Modeling, FM)和模板建模(Template-based Modeling, TBM)生成的3D模型中的結構資訊加以有效融合,從而大大提高了最終3D建模的準確性。

在研究方面,tFold 平臺已在國際公認最權威的測試平臺CAMEO上顯露出價值。騰訊 AI Lab 於2020年初在CAMEO平臺註冊了自動化蛋白結構預測伺服器 tFold server,並自2020年6月起至今一直保持周度(圖1)、月度、季度、半年度冠軍。

在這裡插入圖片描述

tFold server的3D Modeling輸出頁面。左邊部分為從頭摺疊得到的3D蛋白模型;右邊部分是該3D模型在給定的預測殘基對距離矩陣下的偏差。

在應用方面,tFold server的公測版也已經在騰訊「雲深智藥」平臺釋出。

官網連結: https://drug.ai.tencent.com/console/cn/tfold

在這個平臺上,使用者可以手動輸入待預測的氨基酸序列或從本地上傳FASTA 格式的序列檔案。在經過一定時間的計算之後,使用者即可得到使用“從頭摺疊”方法預測得到高精確度蛋白結構(下圖)。

在這裡插入圖片描述

tFold server的3D Modeling輸出頁面。左邊部分為從頭摺疊得到的3D蛋白模型;右邊部分是該3D模型在給定的預測殘基對距離矩陣下的偏差。

醫療AI大浪淘沙,但藍海依然遼闊

本論文中解決禿頭問題的關鍵工具tFold所依託的「雲深智藥」平臺,是騰訊釋出的首個AI驅動的藥物發現平臺,整合了騰訊 AI Lab和騰訊雲在前沿演算法、優化資料庫以及計算資源上的優勢,初衷是幫助使用者大幅度減少尋找潛在活性化合物的時間和成本。

目前,「雲深智藥」的五大模組已覆蓋臨床前新藥發現全流程,包括蛋白質結構預測、分子生成模組、虛擬篩選、ADMET預測和合成路線規劃模組。

據瞭解,該平臺的逆合成演算法也已取得了一定進展,計劃於明年上線,以及其它小分子和大分子藥物發現功能模組也將逐步上線。

除藥物研發以外,騰訊 AI Lab 也在影像篩查、病理診斷、病理研究等多個醫療領域持續探索,也有了一些成熟的應用實踐,比如中國首款智慧顯微鏡,宮頸液基細胞(TCT)標本臨床樣本觀察、篩選、標記功能,能夠準確區分神經膠質瘤(大腦最常見腫瘤)的不同亞型並進行分級的演算法,等等,都是騰訊 AI Lab的應用成果。

隨著2018年颳起的醫療AI熱,像騰訊「雲深智藥」這樣的醫療AI平臺還有很多,有的背靠大型科技企業,有著充足的研發資金與技術支援,有的術業有專攻,企業小而精,專注於技術的落地與應用。

2019年,大浪淘沙,醫療AI的融資額總體呈降低趨勢,醫療AI熱暫緩,但頭部公司的融資額在增加,留下的是實力派。據IDC統計資料,到2025年人工智慧應用市場總值將達到1270億美元,其中醫療行業將佔市場規模的五分之一。如今,醫療AI市場也和眾多AI領域一樣冷靜下來,進入沉澱期,這對藥物研發和病理研究領域來說是件好事,因為AI在這片領域還大有可為,尤其經過此次新冠疫情,AI在醫學領域的價值更是得到了實踐的驗證。

誰能在這片藍海中搶下一城,成為醫療AI領域的“霸主”,還要憑技術研究實力,以及最終的實踐應用能力說話,我們且靜觀其變。

相關文章