新型蛋白質大語言模型即將登陸Google Cloud

ScienceAI發表於2024-09-18
圖片

編輯 | KX

9 月 17 日,領先的細胞程式設計和生物安全平臺 Ginkgo Bioworks 公司宣佈了兩項新產品,將助力製藥和生物技術公司更容易開發新藥,這是在去年與 Google Cloud 宣佈的合作伙伴關係的基礎上推出的。

與 Google Cloud 合作構建的蛋白質大型語言模型 (LLM),是業內首創之一,它將使個人研究人員和企業公司能夠利用 Ginkgo 私人資料的見解開發藥物。

其次,Ginkgo 正在推出其模型 API,這是一種強大的工具,旨在將生物 AI 模型直接帶給機器學習科學家。該 API 現已在 Ginkgo 網站上公開發布,企業公司很快就能訪問基於蛋白質的 LLM Google Cloud 的 Vertex AI Model Garden。


圖片

Ginkgo Bioworks 推出基於 Google Cloud 技術構建的新型蛋白質 LLM 和模型 API。

Ginkgo Bioworks 執行長 Jason Kelly:「我很高興看到社群在這些模型和我們的 API 的基礎上進行構建。AA-0 是我們釋出的第一個基於 Ginkgo 專有資料進行訓練的模型,我們將其開放給資料科學家和生物資訊學家,以便他們可以在此基礎上構建新的模型和應用程式。我們相信,Tokens 的低成本和我們其他對客戶友好的條款(例如沒有版稅),以及我們承諾不重複使用客戶資料,將允許使用者構建工具,例如呼叫我們的蛋白質生成 API 的迭代蛋白質設計程式或使用我們的嵌入 API 來計算聚類演算法的特徵。」

這些新產品展示了 Ginkgo 如何以新的方式支援生命科學行業,幫助他們改善和加速藥物開發過程。

  • 面向個人研究人員和企業公司的蛋白質 LLM:該 LLM 和未來的 LLM 基於 Vertex AI 與 Google Cloud Consulting 合作構建,並在 Ginkgo 廣泛的專有資料集上進行訓練,使公司能夠產生新穎的見解並加速新療法的發現。透過利用人工智慧的力量來分析和理解複雜的蛋白質結構和相互作用,研究人員和企業可以簡化他們的研究流程,最佳化先導化合物識別,並最終更快、更有效地將救命的藥物推向市場。基於從 Ginkgo 的私人資料中學習的模型,公司可以解鎖隱藏的模式和潛在的治療目標,否則這些模式和目標將難以捉摸。

  • 面向科學家和研究人員的開放 API:藉助這種程式設計師友好的超低成本 API,Ginkgo 正在將其內部開發的 AI 工具提供給任何人。該介面提供了一種簡單且可擴充套件的方式來訪問在蛋白質和 DNA 資料上訓練的複雜模型,從其第一個版本開始:在專有 Ginkgo 資料集上訓練的機器學習模型。

Ginkgo 的第一個模型——ginkgo-AA-0-650m,是一個基於 20 多億個專有 Ginkgo 蛋白質序列進行訓練的大規模模型。

圖片

模型詳情:https://www.ginkgobioworks.com/2024/09/17/aa-0-protein-llm-technical-review/

Google Cloud 戰略產業副總裁 Chris Sakalosky 表示:「Ginkgo 的新蛋白質 LLM 和開放 API 標誌著在使先進的 AI 工具可用於藥物發現和生物研究方面邁出了重要一步。透過利用 Google Cloud 的基礎設施和 AI 功能,Ginkgo 正在幫助企業和個人科學家加速他們的工作並推動生命科學領域的創新。Ginkgo 在使尖端 AI 模型的訪問變得民主化方面處於領先地位,為使用 Ginkgo 平臺的製藥公司增加了價值,並最終幫助人們過上更健康的生活。」

Ginkgo 正在開發多種模型,涵蓋語言建模和條件設計擴散等機器學習方法。Ginkgo 的第一個蛋白質語言模型版本將支援兩種用例:

  • 透過掩碼語言建模生成:給定帶有一個或多個 <mask> 標記的氨基酸序列,模型將完成該序列。
  • 嵌入計算:計算訓練模型的最終隱藏層,以提取下游任務的寶貴表示。首先,Ginkgo 的模型返回長度軸上的平均池化表示。

在接下來的一年裡,Ginkgo 將推出更多模型並擴充套件 API 的功能,構建一套強大的工具,讓科研人員能夠使用最新的機器學習方法解決藥物發現、合成生物學、基因組學等領域的複雜問題。

Ginkgo AI 總經理 Ankit Gupta 說:「靈活性就是一切。除了我們的第一個專有模型(利用 Ginkgo 的獨特資料集)之外,您還可以訪問 ESM2 等公開可用的模型。這意味著您可以透過一個簡化的平臺探索和試驗不同的方法。我們還致力於讓高階機器學習工具變得觸手可及,這就是我們的 API 提供具有競爭力的價格和免費套餐的原因。

我們已經制定了成本結構,讓您可以輕鬆參與、試驗並獲得預測,而不必擔心高昂的費用。我們的初始模型將有一個免費套餐,我們的介紹價格約為 0.18 美元/million tokens。這意味著對於含有約 500 種氨基酸的蛋白質,使用者應該能夠以大約 10 美分的價格獲得 2000 個序列的預測。在生成生物學時代,工程師一次設計數千到數百萬個序列,我們希望透過巨大的計算規模來實現它們。」

圖片

關於 Ginkgo Bioworks

Ginkgo Bioworks 是領先的細胞程式設計水平平臺,提供靈活的端到端服務,解決食品和農業、製藥、工業和特種化學品等不同市場組織面臨的挑戰。Ginkgo Biosecurity 正在構建和部署全球領導者預測、檢測和應對各種生物威脅所需的下一代基礎設施和技術。

Ginkgo Bioworks 公司官網:https://www.ginkgobioworks.com/

參考內容:https://finance.yahoo.com/news/ginkgo-bioworks-launches-protein-llm-120100733.html

相關文章