「Meet AI4S」系列直播第五期將於 12 月 10 日 19:00 準時開播,HyperAI超神經有幸邀請到了浙江大學知識引擎實驗室的博士研究生王澤元,他本次分享的主題是「藉助擴散去噪過程助力大模型對蛋白質的最佳化」。
浙江大學陳華鈞教授、張強研究員、王澤元博士等人提出的全新去噪蛋白質語言模型 (DePLM), 可以將蛋白質語言模型捕捉到的進化資訊視為與目標特性相關和無關的混合體,其中無關資訊被視為「噪音」並消除,進而預測蛋白質適應性景觀,幫助蛋白質最佳化。
研究表明,DePLM 在預測蛋白質突變效應方面超過了現有方法,並且對新蛋白質具有很強的泛化能力,該成果已經入選頂會 NeurIPS 2024。
本次直播,王澤元博士將為大家詳解這篇論文的創新思路,HyperAI超神經還特意為大家準備了 10 小時 NVIDIA RTX A6000 資源,參與直播間抽獎活動的觀眾有機會免費獲取哦!
掃碼備註「AI4S」加入討論群 ⬇️
嘉賓介紹
分享主題
藉助擴散去噪過程助力大模型對蛋白質的最佳化
內容簡介
本課題組提出將大模型與擴散去噪模型相結合的方法,透過少量溼實驗資料進行精細微調,提升大模型在蛋白質適應性景觀預測任務精準度的同時,保持了模型自身良好的泛化能力。
觀眾獲益
- 瞭解蛋白質適應性景觀 (fitness landscape) 預測的方法、資料集和指標
- 瞭解擴散模型增強的語言模型 (DePLM) 如何用於適應性景觀預測
- 探討進化資訊、溼實驗等資料如何結合共同用於 AI 模型的訓練
論文回顧
HyperAI超神經此前曾解讀了王澤元博士為第一作者的研究論文「DePLM: Denoising Protein Language Models for Property Optimization」。
* 點選檢視詳細報導:入選NeurIPS 2024!浙大團隊提出全新去噪蛋白質語言模型DePLM,突變效應預測優於SOTA模型
研究亮點
- DePLM 能夠有效過濾與目標特性無關的資訊,透過最佳化 PLM 中包含的進化資訊來改善蛋白質最佳化
- DePLM 不僅在突變效應預測方面優於當前最先進的模型,還展現出對新蛋白質的強大泛化能力
- 本研究設計了去噪擴散框架中基於排序的前向過程,將擴散過程擴充套件到突變可能性的排序空間,同時將學習目標從最小化數值誤差轉變為最大化排序相關性,促進資料集無關的學習並確保模型強大的泛化能力
資料集獲取
研究選用 ProteinGym 蛋白質突變資料集,排除過長野生型蛋白質資料集後,最終保留了 201 個深度突變篩選 (DMS) 資料集。
資料集直接使用:
https://hyper.ai/datasets/32818
模型架構
如下圖左側,DePLM 使用從 PLM 中得出的進化似然 (Evolution Likelihood) 作為輸入,並生成針對特定屬性的去噪似然 (Denoised Likelihood),用於預測突變的影響;在下圖中間和右側,去噪模組 (Denoising Module) 利用特徵編碼器 (Feature Encoder) 生成蛋白質的表徵,考慮一級和三級結構,這些表徵隨後透過去噪模組用於過濾似然中的噪聲。
DePLM 架構概覽
為了實現與資料集無關的學習,保證強大的模型泛化能力,研究人員在特性值的排序空間中進行擴散過程,並將傳統的最小化數值誤差目標替換為最大化排序相關性。
浙江大學知識引擎實驗室
知識引擎實驗室依託浙江大學電腦科學與技術學院、軟體學院等, 致力於知識圖譜、大型語言模型、AI for Science 等領域的學術研究、開源開放、產業創新應用。聯合建設有浙江大學螞蟻集團知識圖譜聯合研發中心、浙江大學阿里巴巴知識引擎聯合實驗室等。
團隊長期招聘優秀博後、百人、研發工程師等各類專職研究人員,歡迎大家加入~
實驗室 Github 主頁:
http://github.com/zjunlp
http://github.com/zjukg
Meet AI4S 系列直播
HyperAI超神經 (hyper.ai) 是中國最⼤的資料科學領域搜尋引擎,聚焦 AI for Science 的最新科研成果,實時追蹤 Nature、Science 等頂級刊物的學術論文,至今已完成近 200 篇 AI for Science 論文的解讀。
此外,我們還運營了國內唯一 AI for Science 開源專案 awesome-ai4s。
專案地址:
https://github.com/hyperai/awesome-ai4s
為了進一步推進 AI4S 的普適化,將學術機構的科研成果進一步降低傳播壁壘,分享給更廣泛的行業學者、科技愛好者及產業單位,HyperAI超神經策劃了「Meet AI4S」影片欄目,邀請深耕 AI for Science 領域的科研人員或相關單位,以影片的形式分享研究成果、方法思路,共同探討 AI for Science 在科研進展及推進落地過程中面臨的機遇和挑戰,促進 AI for Science 的科學普及和傳播。
到目前為止,我們已經成功舉辦了 4 期 Meet AI4S 直播,覆蓋地理資訊科學、生命科學、蛋白質工程領域。
歡迎高效課題組及研究機構共同參與到我們的直播活動中! 掃描二維碼新增「神經星星」微信,瞭解詳情↓