ChatGPT用於科學，如何與你的資料對話？LLM幫你做科研

ScienceAI發表於2024-07-25

編輯 | 白菜葉

「計算機，分析。」在科幻小說中，人物不需要程式設計技能來從資料中提取有意義的資訊，他們只是簡單地提出要求而已。

現在，越來越多的公司正嘗試利用大型語言模型 (LLM) 將這一幻想變成現實。這些功能強大的人工智慧（AI）工具讓研究人員能夠用自然語言詢問資料問題，例如「對照組和實驗組有什麼區別？」。

但與科幻小說中的人工智慧不同，這些人工智慧給出的答案仍然需要謹慎對待，並經過仔細檢查才能安全使用。想想 ChatGPT 的資料。

使用這些工具的原因很簡單：篩選和確定生物資料的優先順序是一項費力且具有挑戰性的工作，需要專業技能。

「生物資料變得越來越複雜。」加利福尼亞州舊金山 Enable Medicine 公司的科學經理 Alexandro Trevino 說，該公司正在為其藥物開發客戶構建空間基因表達和蛋白質定位資料圖譜。「規模大大增加，這些資料集的複雜性也增加了，我認為我們已經擴大了挖掘和有效理解以及解釋這些資料的挑戰難度。」

理論上，專門的 LLM 可以讓研究人員從資料中提取見解，而無需瞭解資料的複雜性或如何程式設計。其中一些工具已經可以回答非常複雜的問題。但它們仍處於開發的初級階段。與其他基於 LLM 的工具一樣，它們可以「產生幻覺」或編造答案。因此，它們的開發人員表示，它們應該在人類的某種程度的監督下使用。

為什麼要談論你的資料？

線上資料並不缺乏，查詢資料的工具也不少。例如，CZ CELLxGENE 資料門戶提供了預置工具，允許研究人員查詢單細胞基因表達資料集。ChatPDF 等實用程式允許研究人員上傳 PDF（例如科學論文）並提出問題。但更復雜的分析需要了解基礎資料的結構及其變數的名稱和型別。

為了使這種互動更加容易，舊金山的生物技術公司 Genentech 正在從頭開始構建其基於 LLM 的工具。該 LLM 專案由該公司紐約前沿研究總監 Stephen Ra 領導，旨在解決「藥物發現和開發過程中的大量問題」，他說，「從目標識別、發現、安全性、評估、優先排序，一直到我們如何做出更好的決策，或降低某些臨床試驗階段的風險，或更好地瞭解患者的軌跡和不良後果」。

Ra 表示，由此產生的 LLM 可以減輕目前繁重的手工任務。例如，一位科學家可能會將他們的一個資料集擱置一段時間，但隨後又想彙總這些資料。他們可以詢問，「請提供這個特定檢測、這個特定時間、這個菌株的所有結果」，Ra 說。該系統應該能夠理解查詢和資料，足以滿足請求，Genentech 及其母公司 Roche 的「許多團隊」正在對其進行 beta 測試。

同樣，Enable Medicine 的執行長 Kamni Vijay 表示，其 LLM 學位旨在讓公司代表其客戶（主要是腫瘤學和自身免疫性疾病領域的製藥公司）查詢其生物圖譜。

Vijay 表示，研究人員可以提出諸如「患者對治療有反應嗎？對治療有反應的患者與沒有反應的患者有何區別？」或「哪些生物標記會影響或預測疾病進展？」等問題。她補充說，Enable 正在基於現有的幾個 LLM 進行構建，並使用來自數萬個樣本的 PB 級（1 PB 為 100 萬 GB）分子和細胞資料進行訓練。然而，他們仍在進行實驗。「我們的研究的一部分是探索這種介面是否具有科學有效性和價值。」

它們看起來怎麼樣？

該領域的一些工具模仿了 ChatGPT 流行的問答格式。例如，由馬薩諸塞州波士頓布萊根婦女醫院的計算病理學家 Faisal Mahmood 建立的 PathChat 允許使用者輸入病理影像（例如腫瘤活檢結果）以及描述性資料（例如「該腫瘤對標記物 A、B 和 C 染色呈陽性」）。然後，使用者可以用自然語言詢問有關這些資料的問題，例如「您對腫瘤原發來源的評估是什麼？」這些交流在視覺上就像 WhatsApp 對話中來回的文字氣泡一樣。

然而，Vijay 表示，Enable 的系統與問答形式有所不同。她說，這是一個更復雜的自動化系統，允許使用自然語言進行查詢。

還有一些工具輸出的是程式碼而不是文字。Mergen 是一個基於 LLM 的 R 程式語言庫，由柏林馬克斯·德爾布呂克中心的生物資訊學家 Altuna Akalin 構建。Akalin 建立這個庫（或「軟體包」）是因為他的團隊收到的分析基因組資料的請求超出了它能夠處理的範圍。Mergen 是專為基因組學研究人員而非計算科學家設計的，它分析預處理的基因組學資料集以回答諸如「你能告訴我在特定個體中過度表達的所有基因嗎？」之類的問題。該工具不會給出答案，而是返回可執行分析的可執行程式碼。然而，與所有 LLM 一樣，該程式碼在使用前應由人工仔細檢查，Akalin 警告說，因為即使程式碼是可執行的，也可能包含邏輯錯誤。

它們是怎樣被製作的？

要建立一個允許研究人員與資料對話的 LLM 專案，需要什麼呢？與所有人工智慧系統一樣，答案是大量的訓練資料。但資料型別的平衡同樣重要，Ra 說，他的團隊為實現正確的平衡付出了相當大的努力。「對我們來說，價值在於能夠利用對 Genentech 許多團隊具有廣泛用途的東西，並允許這些團隊微調他們自己的模型。」 Ra 表示，Genentech 利用內部和外部資訊訓練其模型，涵蓋多個專案和領域，包括組學和臨床資料。

Trevino 表示，將通用 LLM 轉變為使用者能夠與資料對話的系統主要有兩種方式。一種是使用特定領域的資訊（例如病理學資料）對通用 LLM 進行微調。他說，在這種「非常有效」的方法中，模型本身「正在具體學習新東西」。另一種方法稱為情境化，它不會改變底層的通用 LLM，而是為其提供定製的上下文，例如醫學文獻資料庫，作為查詢的一部分。Trevino 拒絕透露 Enable 採用的是哪種方法。

為了構建 PathChat，Mahmood 團隊從 Facebook 母公司 Meta 開發的通用 LLM Llama 2 開始。他們將 LLM 與他們為病理學構建的兩個視覺語言模型（稱為 UNI 和 CONCH）連線起來，每個模型都經過數百萬張病理學影像和說明的訓練，從而構建了一個多模態 LLM。

Mahmood 說，研究人員隨後利用從病例報告和教育文章中提取的 50 萬條病理學對話改進了多模式 LLM，這些對話跟蹤了病例的完整軌跡，主要來自布萊根婦女醫院和麻省總醫院，最終產生了 PathChat。他說，Brigham 婦女醫院的一些病理學家目前正在使用該系統來解釋顯微鏡影像並編寫病理學家可以檢查的形態學描述。

它們值得信賴嗎？

確認很重要：LLM 提供的答案並不意味著答案是正確的。LLM 可以編造答案或省略資訊，如何最好地確保模型的響應可驗證和可複製仍未確定，Trevino 說，「如何審查結果是一個活躍的研究領域。」

Ra 表示，一個關鍵方面是來自特定領域專家的反饋。有多種方式可以整合此類檢查 — 例如，使用者可以提供簡單的贊成或反對，更詳細的回覆，或者一個人和 LLM 之間可以進行反覆互動。無論如何，希望隨著時間的推移，該模型將發展為需要更少的輸入，因為隨著資料集的擴大，這種反饋是不可擴充套件的。

Trevino 和 Ra 表示，在研究型 LLM 課程中，理解和信任底層模型中發生的事情尤為重要。Trevino 說，一個挑戰是「稍微開啟那個黑匣子」，以便更好地理解為什麼它會以這樣的方式回答問題。這可能有助於最大限度地減少幻覺。

事實上，Ra 表示，Genentech 從頭開始建立 LLM 學位的動機之一是，它希望確保自己能夠信任和理解輸入的每一點資料。「在我們經常處理特權資訊或非常敏感的資訊（例如患者資料）的環境中，這一點非常重要，」他說。

Ra 解釋道，對於現成的「黑匣子」LLM，並不總是清楚他們是如何接受培訓的。「我認為這是一些商業 LLM 解決方案普遍受到的批評，即資料透明度往往不夠。」

另一個長期存在的挑戰，就像整個 LLM 領域一樣，是基礎資料的偏見。訓練資料中代表性不足的群體將被最終模型錯誤地表示出來，而目前的基因組資料極大地代表了歐洲血統的人。Trevino 和 Vijay 表示，解決方案是提高基礎資料的多樣性。但他們表示，基礎資料的多樣性是否足夠，並沒有明確的終點。

然而，如果這些挑戰得以克服，這些模式「將帶來實實在在的好處」，Trevino 說。重要的是「確保這些好處得以實現並最大限度地民主化」，而且這些好處值得我們付出所有努力。

相關內容：https://www.nature.com/articles/d41586-024-02386-6

工作做不完，假期不好過？ChatGPT 幫你高效工作
2023-03-13
ChatGPT
Excel不夠用？ Smartbi NLA對話式分析來幫你
2022-06-01
Excel
基於ChatGPT用AI實現自然對話
2023-04-30
ChatGPTAI
你與資料科學家只差這26條python技巧
2019-02-13
資料科學Python
用Python做商業資料探勘，你學廢了嗎？
2021-11-18
Python
【譯Py】2018年，這5個資料科學專案能幫你找到工作
2018-07-08
資料科學
手把手教會你如何透過ChatGPT API實現上下文對話
2023-04-03
ChatGPTAPI
常用資料庫選型！你做對了嗎？
2022-02-17
資料庫
與ChatGPT的有趣對話|Adobe軟體列表
2023-03-15
ChatGPT
Laravel 2018使用資料分析——Laravel你用對了嗎？學對了嗎？
2018-08-14
Laravel
資料科學大Battle，你站Python還是R
2018-06-30
資料科學BATPython
對於你們駁來駁去的《停止學習框架》，我有話說！
2018-12-21
框架
動手做科研-day01-AI的最新進展與科研應用
2024-08-11
AI
做資料科學領域的「召喚師」，組織一場人人可參與的資料科學比賽
2019-04-20
資料科學
如何將 Scikit-learn Python 庫用於資料科學專案
2018-10-14
Python資料科學
一個對話讓你明白架構師是做什麼的？
2019-03-11
架構
【與ChatGPT的有趣對話】Adobe認證有用嗎？
2023-03-13
ChatGPT
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
關於資料治理ChatGPT是如何回答的？
2023-02-17
ChatGPT
基於大模型LLM（包括ChatGPT）的應用開發與輔助程式設計技能
2024-11-18
大模型ChatGPT程式設計
3 個用於資料科學的頂級 Python 庫
2018-10-04
資料科學Python
Orchest是用於資料科學的基於瀏覽器的IDE
2021-05-27
資料科學瀏覽器IDE
資料科學領域，你該選 Python 還是 R ？
2018-08-02
資料科學Python
用在資料科學上的 Python：你可能忘記的 8 個概念
2018-12-16
資料科學Python
用Python做資料科學時容易忘記的八個要點！
2018-07-23
Python資料科學
與ChatGPT的有趣對話|Adobe都有什麼軟體？
2023-03-15
ChatGPT
與ChatGPT的有趣對話|Adobe是什麼軟體？
2023-03-15
ChatGPT
【與ChatGPT的有趣對話】Adobe國際認證含金量？
2023-03-10
ChatGPT
一次因生產事故與chatGpt的對話
2023-03-29
ChatGPT
線性代數與資料學習：MIT教授Gilbert Strang幫你打下堅實的數學基礎
2019-01-09
MIT
ChatGPT應用PDF對話導師提示詞
2024-09-25
ChatGPT
你對於留存資料的看法可能該變一變了
2020-06-08
最性感的工作？資料科學不一定適合你
2020-10-30
資料科學
留下你最想說的話，我來用ai回覆你
2018-03-26
AI
資料科學的原理與技巧二、資料生成
2018-06-03
資料科學
詳解 OneAlert 排班可以幫你做什麼
2018-05-15
可組合的 ERP 系統如何幫你超越競爭對手？
2023-04-27
Go 應用於資料科學的案例分享：付多少小費
2021-08-04
Go資料科學

ChatGPT用於科學，如何與你的資料對話？LLM幫你做科研

相關文章