ChatGPT用於科學,如何與你的資料對話?LLM幫你做科研

ScienceAI發表於2024-07-25

圖片

編輯 | 白菜葉

「計算機,分析。」在科幻小說中,人物不需要程式設計技能來從資料中提取有意義的資訊,他們只是簡單地提出要求而已。

現在,越來越多的公司正嘗試利用大型語言模型 (LLM) 將這一幻想變成現實。這些功能強大的人工智慧(AI)工具讓研究人員能夠用自然語言詢問資料問題,例如「對照組和實驗組有什麼區別?」。

但與科幻小說中的人工智慧不同,這些人工智慧給出的答案仍然需要謹慎對待,並經過仔細檢查才能安全使用。想想 ChatGPT 的資料。

使用這些工具的原因很簡單:篩選和確定生物資料的優先順序是一項費力且具有挑戰性的工作,需要專業技能。

「生物資料變得越來越複雜。」加利福尼亞州舊金山 Enable Medicine 公司的科學經理 Alexandro Trevino 說,該公司正在為其藥物開發客戶構建空間基因表達和蛋白質定位資料圖譜。「規模大大增加,這些資料集的複雜性也增加了,我認為我們已經擴大了挖掘和有效理解以及解釋這些資料的挑戰難度。」

理論上,專門的 LLM 可以讓研究人員從資料中提取見解,而無需瞭解資料的複雜性或如何程式設計。其中一些工具已經可以回答非常複雜的問題。但它們仍處於開發的初級階段。與其他基於 LLM 的工具一樣,它們可以「產生幻覺」或編造答案。因此,它們的開發人員表示,它們應該在人類的某種程度的監督下使用。

為什麼要談論你的資料?

線上資料並不缺乏,查詢資料的工具也不少。例如,CZ CELLxGENE 資料門戶提供了預置工具,允許研究人員查詢單細胞基因表達資料集。ChatPDF 等實用程式允許研究人員上傳 PDF(例如科學論文)並提出問題。但更復雜的分析需要了解基礎資料的結構及其變數的名稱和型別。

為了使這種互動更加容易,舊金山的生物技術公司 Genentech 正在從頭開始構建其基於 LLM 的工具。該 LLM 專案由該公司紐約前沿研究總監 Stephen Ra 領導,旨在解決「藥物發現和開發過程中的大量問題」,他說,「從目標識別、發現、安全性、評估、優先排序,一直到我們如何做出更好的決策,或降低某些臨床試驗階段的風險,或更好地瞭解患者的軌跡和不良後果」。

Ra 表示,由此產生的 LLM 可以減輕目前繁重的手工任務。例如,一位科學家可能會將他們的一個資料集擱置一段時間,但隨後又想彙總這些資料。他們可以詢問,「請提供這個特定檢測、這個特定時間、這個菌株的所有結果」,Ra 說。該系統應該能夠理解查詢和資料,足以滿足請求,Genentech 及其母公司 Roche 的「許多團隊」正在對其進行 beta 測試。

同樣,Enable Medicine 的執行長 Kamni Vijay 表示,其 LLM 學位旨在讓公司代表其客戶(主要是腫瘤學和自身免疫性疾病領域的製藥公司)查詢其生物圖譜。

Vijay 表示,研究人員可以提出諸如「患者對治療有反應嗎?對治療有反應的患者與沒有反應的患者有何區別?」或「哪些生物標記會影響或預測疾病進展?」等問題。她補充說,Enable 正在基於現有的幾個 LLM 進行構建,並使用來自數萬個樣本的 PB 級(1 PB 為 100 萬 GB)分子和細胞資料進行訓練。然而,他們仍在進行實驗。「我們的研究的一部分是探索這種介面是否具有科學有效性和價值。」

它們看起來怎麼樣?

該領域的一些工具模仿了 ChatGPT 流行的問答格式。例如,由馬薩諸塞州波士頓布萊根婦女醫院的計算病理學家 Faisal Mahmood 建立的 PathChat 允許使用者輸入病理影像(例如腫瘤活檢結果)以及描述性資料(例如「該腫瘤對標記物 A、B 和 C 染色呈陽性」)。然後,使用者可以用自然語言詢問有關這些資料的問題,例如「您對腫瘤原發來源的評估是什麼?」這些交流在視覺上就像 WhatsApp 對話中來回的文字氣泡一樣。

然而,Vijay 表示,Enable 的系統與問答形式有所不同。她說,這是一個更復雜的自動化系統,允許使用自然語言進行查詢。

還有一些工具輸出的是程式碼而不是文字。Mergen 是一個基於 LLM 的 R 程式語言庫,由柏林馬克斯·德爾布呂克中心的生物資訊學家 Altuna Akalin 構建。Akalin 建立這個庫(或「軟體包」)是因為他的團隊收到的分析基因組資料的請求超出了它能夠處理的範圍。Mergen 是專為基因組學研究人員而非計算科學家設計的,它分析預處理的基因組學資料集以回答諸如「你能告訴我在特定個體中過度表達的所有基因嗎?」之類的問題。該工具不會給出答案,而是返回可執行分析的可執行程式碼。然而,與所有 LLM 一樣,該程式碼在使用前應由人工仔細檢查,Akalin 警告說,因為即使程式碼是可執行的,也可能包含邏輯錯誤。

它們是怎樣被製作的?

要建立一個允許研究人員與資料對話的 LLM 專案,需要什麼呢?與所有人工智慧系統一樣,答案是大量的訓練資料。但資料型別的平衡同樣重要,Ra 說,他的團隊為實現正確的平衡付出了相當大的努力。「對我們來說,價值在於能夠利用對 Genentech 許多團隊具有廣泛用途的東西,並允許這些團隊微調他們自己的模型。」 Ra 表示,Genentech 利用內部和外部資訊訓練其模型,涵蓋多個專案和領域,包括組學和臨床資料。

Trevino 表示,將通用 LLM 轉變為使用者能夠與資料對話的系統主要有兩種方式。一種是使用特定領域的資訊(例如病理學資料)對通用 LLM 進行微調。他說,在這種「非常有效」的方法中,模型本身「正在具體學習新東西」。另一種方法稱為情境化,它不會改變底層的通用 LLM,而是為其提供定製的上下文,例如醫學文獻資料庫,作為查詢的一部分。Trevino 拒絕透露 Enable 採用的是哪種方法。

為了構建 PathChat,Mahmood 團隊從 Facebook 母公司 Meta 開發的通用 LLM Llama 2 開始。他們將 LLM 與他們為病理學構建的兩個視覺語言模型(稱為 UNI 和 CONCH)連線起來,每個模型都經過數百萬張病理學影像和說明的訓練,從而構建了一個多模態 LLM。

Mahmood 說,研究人員隨後利用從病例報告和教育文章中提取的 50 萬條病理學對話改進了多模式 LLM,這些對話跟蹤了病例的完整軌跡,主要來自布萊根婦女醫院和麻省總醫院,最終產生了 PathChat。他說,Brigham 婦女醫院的一些病理學家目前正在使用該系統來解釋顯微鏡影像並編寫病理學家可以檢查的形態學描述。

它們值得信賴嗎?

確認很重要:LLM 提供的答案並不意味著答案是正確的。LLM 可以編造答案或省略資訊,如何最好地確保模型的響應可驗證和可複製仍未確定,Trevino 說,「如何審查結果是一個活躍的研究領域。」

Ra 表示,一個關鍵方面是來自特定領域專家的反饋。有多種方式可以整合此類檢查 — 例如,使用者可以提供簡單的贊成或反對,更詳細的回覆,或者一個人和 LLM 之間可以進行反覆互動。無論如何,希望隨著時間的推移,該模型將發展為需要更少的輸入,因為隨著資料集的擴大,這種反饋是不可擴充套件的。

Trevino 和 Ra 表示,在研究型 LLM 課程中,理解和信任底層模型中發生的事情尤為重要。Trevino 說,一個挑戰是「稍微開啟那個黑匣子」,以便更好地理解為什麼它會以這樣的方式回答問題。這可能有助於最大限度地減少幻覺。

事實上,Ra 表示,Genentech 從頭開始建立 LLM 學位的動機之一是,它希望確保自己能夠信任和理解輸入的每一點資料。「在我們經常處理特權資訊或非常敏感的資訊(例如患者資料)的環境中,這一點非常重要,」他說。

Ra 解釋道,對於現成的「黑匣子」LLM,並不總是清楚他們是如何接受培訓的。「我認為這是一些商業 LLM 解決方案普遍受到的批評,即資料透明度往往不夠。」

另一個長期存在的挑戰,就像整個 LLM 領域一樣,是基礎資料的偏見。訓練資料中代表性不足的群體將被最終模型錯誤地表示出來,而目前的基因組資料極大地代表了歐洲血統的人。Trevino 和 Vijay 表示,解決方案是提高基礎資料的多樣性。但他們表示,基礎資料的多樣性是否足夠,並沒有明確的終點。

然而,如果這些挑戰得以克服,這些模式「將帶來實實在在的好處」,Trevino 說。重要的是「確保這些好處得以實現並最大限度地民主化」,而且這些好處值得我們付出所有努力。

相關內容:https://www.nature.com/articles/d41586-024-02386-6

相關文章