準確性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白結構預測新突破

ScienceAI發表於2024-03-13
圖片

編輯 | 凱霞

2018 年,DeepMind 釋出了蛋白質預測演算法 AlphaFold,席捲整個生物學界。AlphaFold 能夠準確預測蛋白質結構。

瞭解蛋白質如何相互作用是瞭解生物技術領域的關鍵,從如何使食物味道更好,到如何使農作物在氣候變化中生存,再到治癒癌症。

自發布以來,AlphaFold、AlphaFold2 及其在過去幾年中生成的數億個蛋白質結構,已成為世界各地生物技術研究人員工具包的重要組成部分。

儘管 AlphaFold 推動了行業的發展,但它也有其自身的侷限性。研究人員距離合成生物學的聖盃還有很長的路要走:AI 模型可以採用所需的蛋白質形狀,並透過找到與之相互作用的正確化學物質,或完全設計一種自然界中找不到的蛋白質來弄清楚如何創造它 。

圖片

3 月 12 日,基於 AI 的蛋白質和其他生物系統設計領域的全球領導者 Basecamp Research,宣佈推出其新的深度學習模型 BaseFold。

與其他 AI 驅動的模型相比,該模型可以比其他 AI 工具更準確地預測大型複雜蛋白質的 3D 結構,包括行業黃金標準 AlphaFold2。

Basecamp 表示,其模型 BaseFold 在更廣泛的資料集上進行訓練,可以產生比 AlphaFold2 更準確的蛋白質結構預測。

BaseFold 利用 Basecamp 專門構建的基礎資料集,顯著提高了大型複雜蛋白質結構和小分子相互作用的預測精度,其準確性比 AlphaFold2 高出六倍,並將小分子對接提高了三倍。

對更大、更復雜的蛋白質進行更可靠的 3D 結構預測,將大大加速基於人工智慧的藥物發現研究。

此外,該公司還宣佈將與 NVIDIA 合作,為 NVIDIA BioNeMo(一個用於藥物發現的生成式 AI 平臺)最佳化和生產 BaseFold。

圖片

Basecamp 技術長 Phil Lorenz 博士表示:

「我們重新設計和重建了整個資料採集流程,使我們成為第一支收集和註釋生物多樣性資料的團隊,其質量與人類臨床遺傳資料相同——所有這些都是專為 AI 時代而設計的。BaseGraph 是同類中最多樣化、最全面的資料集,是我們人 AI 進步的核心驅動力。我們的資料庫每週都在增長,因此,BaseFold 也每週都在改進。」

Basecamp 聯合創始人兼執行長 Glen Gowers 說:

「AlphaFold 是藥物發現中最有用的人工智慧工具之一。它使研究人員能夠更好地預測藥物如何與體內蛋白質相互作用,從而減少數年的工作。但是,AlphaFold 仍然有很大的改進空間,特別是當用於預測大型、複雜和代表性不足的蛋白質時,這些蛋白質通常對於新療法的開發最為關鍵。即使只有幾個百分點的誤差也會對準確預測蛋白質-分子相互作用產生重大影響。」

Gowers 補充道,「我們知道,就 AI 而言,最好的資料會產生最好的結果,而且很高興知道我們構建的新的、專門構建的基礎資料集已經對藥物開發和人類健康產生了廣泛的影響,不過,我們並沒有就此止步——我們正在繼續擴大我們的生物多樣性合作伙伴關係,並將這種資料優勢應用於越來越多的生物 AI 模型。」

圖片

Glen Gowers,Basecamp Research 執行長兼聯合創始人。

BaseFold:透過全球宏基因組和生物資料供應鏈提高 AlphaFold2 效能

該公司在預印本平臺 bioRxiv 上發表了一篇文章。Basecamp 研究人員提出了一種以資料為中心的方法來改進生物學中的深度學習模型。

論文要點:

  • Basecamp Research 專門構建的基礎資料集使 BaseFold 將 AlphaFold2 預測結構的準確性提高了 6 倍。
  • 該團隊證明小分子與蛋白質靶標相互作用的建模準確性提高了 3 倍。
  • BaseFold 為比以往更大、更復雜的蛋白質解鎖了更可靠的 3D 結構預測和小分子對接,特別是那些在公共資料集中代表性不足的蛋白質。
  • 這一步驟的變化將大大加速藥物發現工作,瞭解這些相互作用將允許使用人工智慧開發更先進的治療分子。

圖片

論文連結:https://doi.org/10.1101/2024.03.06.583325

Basecamp 與覆蓋全球 50% 生物群落的五大洲自然公園和生物多樣性利益相關者建立了合作伙伴關係,建立了全球宏基因組和生物資料供應鏈。

與現有公共資料相比,該資料集中捕獲的蛋白質序列多樣性更高,在 AlphaFold2 的推理過程中透過 MSA 補充將這一資料優勢應用於蛋白質摺疊問題。BaseFold 在 CASP15 和 CAMEO 的目標上超過了傳統的 AlphaFold2 效能,其中 60% 顯示 pLDDT 得分有所提高,RMSD 值降低了高達 80%。

最重要的是,預測結構質量的提高可以產生更好的對接結果。透過與利益相關者分享這些資料的來源,Basecamp 提出了一種同時改進生物學深度學習模型和激勵保護地球生物多樣性的方法。

圖片

訪問和組織來自全球宏基因組和生物資料供應鏈的資料的策略。(來源:論文)

Basecamp 不僅僅希望成為一家蛋白質結構公司

據 Pitchbook 稱,迄今為止,該公司共融資 2,500 萬美元,估值為 7,100 萬美元。

雖然這對於這家成立四年的初創公司來說是一個重要的里程碑,但 29 歲的 Gowers 相信,這款軟體讓他離最終目標又近了一步:能夠設計蛋白質——甚至新的有機體——來滿足客戶的需求。「我們不僅僅希望成為一家蛋白質結構公司,」他告訴福布斯。「我們將其廣泛應用於任何生成或預測任務。因此,諸如蛋白質功能適應、新蛋白質的產生,甚至新基因組的產生等。」

Gowers 於 2019 年萌生了建立 Basecamp 的想法,當時他和一些研究人員在冰島度過了一個月的脫離電網生活。他們花了很多時間對一組特殊微生物的基因組進行測序,這些微生物已經進化到能夠在極熱和極冷的情況下生存,因為它們生活在冰和溫泉附近。

他說,他的團隊在一個月內收集到的大部分資料都是「未知蛋白質、未知來源的未知序列的暗物質」。這些資料幫助他認識到,AlphaFold 所訓練的公開基因組資料集「相當於大西洋已知存在的物種的五滴水」。

圖片

論文連結:https://www.mdpi.com/2073-4425/10/11/902

在預測這些生命構建模組如何摺疊時,蛋白質的大量資料非常重要,因為有太多的變數可以決定它們的行為方式——數量如此之多,幾乎不可能直接計算,因為數學太複雜了。但是,如果機器學習模型在數十億種不同的結構上進行訓練,就會出現模式,使其能夠更準確地預測給定蛋白質將如何摺疊。

可以把它想象成過去幾年出現的人工智慧聊天機器人。用人類語言的一小部分(例如 Twitter)訓練機器人,你會發現它會像微軟在 2016 年所做的那樣,變成一個瘋狂的瘋子。相比之下,ChatGPT 及其競爭對手在網際網路上更大、更多樣化的部分進行了訓練,從而使機器人能夠對問題產生更好的結果,並且不太可能侮辱你。同樣,收集更大、更多樣化的基因組資料可以更好地預測蛋白質如何摺疊。

這就是 Basecamp 一直致力於使其模型訓練的蛋白質資料集多樣化的原因。自 2020 年成立以來,Basecamp 一直與世界各地的研究人員合作,對來自世界各地數千萬種微生物、植物和動物的高質量基因組資訊進行測序。反過來,這些研究人員從 Basecamp 的資料收入中獲得版稅。

除了對這些生物體的 DNA 進行測序外,研究人員還收集了背景資訊,提供了更多資料,人工智慧可以使用這些資料來幫助瞭解蛋白質摺疊方式的原因。該公司 31 歲的技術長 Phillip Lorenz 表示:「我們基地的每一個條目都會收集數百個額外維度。」這包括當地溫度、pH 值、發現水體生物的鹽度、這些生物體可獲得的光照程度等等 。他補充說,發現這些樣本的地理位置也極其多樣化,從匈牙利的洞穴到深海噴口。「我們去過世界各地的所有生物群落,從火山島到南極洲。」

Gowers 告訴《福布斯》,Basecamp 已經透過使用其預測模型解決客戶問題來產生收入(他拒絕透露資料)。例如,它正在與英國的 Colorfix 合作設計新的蛋白質,可用於在不使用刺激性化學品的情況下對織物進行染色。它還幫助康涅狄格州的初創公司 Protein Evolution 發現可以分解塑膠的新蛋白質,以便它們可以回收利用。此外,Gowers 希望利用其計算能力與製藥公司合作開發新藥。

儘管如此,Gowers 承認公司不可能永遠保持鬥志旺盛的狀態。為了與資本更雄厚的競爭對手競爭,Basecamp 計劃在不久的將來籌集更多投資。「訓練新模型和構建新架構,特別是當資料非常大時,是一項極其昂貴的業務。」他說。

關於 Basecamp Research

Basecamp Research 是為基於人工智慧的生物系統設計繪製生物多樣性地圖的市場領導者。其使用 BaseGraph™ 為合作伙伴的精確工業、治療或診斷應用匹配和提煉新型蛋白質,BaseGraph™ 是新一代人工智慧設計,由全球遺傳多樣性的第一個高解析度地圖提供支援。

瞭解每種蛋白質的完整遺傳、進化和環境背景使 Basecamp Research 能夠為特定應用設計定製蛋白質,而無需進行昂貴且耗時的定向進化活動。Basecamp 是一支由探險家、科學家和政策專家組成的團隊,保護大自然的多樣性並從中學習,同時為最需要的人提供改變生活的突破。

Basecamp Research 公司官網:https://www.basecamp-research.com/

參考內容:

https://www.forbes.com/sites/alexknapp/2024/03/11/basecamp-research-protein-folding-ai-deepmind-alphafold/?ss=ai&sh=41cabf7fc84a

https://www.biospace.com/article/releases/basecamp-research-launches-basefold-a-breakthrough-in-3d-protein-structure-prediction-of-large-complex-protein-structures/?keywords=AI

相關文章