AI 蛋白質奪諾獎,清華聶再清:大模型解碼生物語言 | 智者訪談

机器之心發表於2024-10-16

圖片

人工智慧的卓越發展

源於對技術與產業本質的洞察

機器之心影片欄目「智者訪談」

邀請領域專家,洞悉 AI 核心趨勢

深化行業認知,激發創新思考

與智者同行,共創 AI 未來

圖片

2024 年諾貝爾化學獎頒發給了在計算蛋白質設計和蛋白質結構預測領域做出突出貢獻的三位科學家,凸顯了人工智慧和計算方法在解析生物語言中的關鍵作用,也預示著 AI 技術在生物醫藥領域更為廣闊的應用前景。

然而,藥物研發作為一個漫長而艱難的過程,10 年、10 億美元、10% 成功率的「魔咒」仍然困擾著整個行業。儘管人工智慧已經在多個環節展現出巨大潛力,業內專家普遍認為,距離 AI 藥物研發發展成熟甚至帶來顛覆性改變還需要很長一段時間。大模型的出現,為加速這一程序提供了新的契機。

本期機器之心《智者訪談》邀請到清華大學聶再清教授,探討他在將先進的自然語言處理技術應用於生物醫藥資料分析的創新實踐。聶教授及其團隊正致力於構建生物醫藥領域的基座大模型,透過對不同尺度和不同模態的資料進行建模及整合,建立起生物語言與自然語言之間的橋樑。

團隊的目標不僅僅是實現自然語言與生物語言之間的翻譯,而是打造一個能夠呼叫各種工具的智慧助手。這個助手有望成為生物醫藥行業應用的重要入口,整合領域內的各種資料、知識和工具,並且使用自然語言與人類專家互動,透過人機協作提升藥物研發的效率與成功率。在當前的技術背景下,相較於單純研發更好的 AI 藥物模型,這種模式具有更高的商業可行性。
圖片
基於大模型的對話式藥物研發助手 ChatDD 介面,使用者透過自然語言進行智慧搜尋、工具呼叫和指令輸入,包括對生物語言(如蛋白質結構)進行最佳化。例如,專家可以輸入自然語言要求「最佳化這個分子以減少毒性」,模型隨後會提供相應的建議和方案。來源:水木分子

如果說數學是描述物理學的完美語言,那麼人工智慧則被認為是破譯生物學複雜機理的關鍵。在訪談中,聶教授將分享其團隊在自然語言與生物資料融合方面的前沿研究成果,探討基於多模態大模型的對話式智慧助手在藥物研發中的實際應用與商業潛力,為我們揭示人工智慧賦能藥物研發的全新可能。AI 蛋白質奪諾獎,清華聶再清:大模型解碼生物語言 | 智者訪談
時間戳

01:15 藥物研發痛點:乾溼實驗不結合

02:28 做基於大模型的對話式藥物研發助手

06:30 構建生物醫藥領域的基座大模型

10:03 多尺度建模與融合:統一到原子

17:45 藥物研發助手 ChatDD

21:16 商業模式:最終目標是成為行業入口

25:38 哪些行業適合研發垂直大模型?

28:37 藥物研發的未來

訪談文字整理

機器之心聶再清教授好,非常高興您做客機器之心的《智者訪談》。我們知道您在自然語言處理語音識別等方面有著深入的研究和實踐,目前在清華大學智慧產業研究院(AIR),主要從事生物醫藥相關的研究工作,並且在 AlR 孵化的公司水木分子擔任首席科學家,很高興能與您就 AI 賦能藥物研發進行探討。

您之前講過在藥物研發領域,一個核心的矛盾就是乾溼實驗無法結合,比如說幹實驗預測出來的結果在溼實驗上面可能並不成功。

聶再清:因為幹實驗一個最大的問題是,其結果是基於某一個資料集的,而那個資料集跟現實生活中的真實場景並不一定完全一致,所以基於這個資料集訓練出的模型,用在真實場景時,有可能效果就差別很大,很難說一個精度 80%、90% 的模型在溼實驗的結果裡能具體代表什麼。當然,我們可以去建一個非常通用的資料集,用以去提升模型的通用性,但現在的問題是資料集的制定和現實製藥場景的制定,可能還沒有那麼好的一致性。在具體任務上,最終效果還是得透過溼實驗檢驗,模型效果到底怎麼樣,是否可用,溼實驗的效果是非常重要的。

01、做基於大模型的對話式藥物研發助手

機器之心您在水木分子帶領團隊研發基於大模型的對話式藥物研發助手,這是一個非常新穎而獨特的賽道,因為說到藥物研發,我們首先想到是預測結構、生成新的分子、設計全新的抗體等等,您為什麼會選擇解決這樣一個問題?

聶再清:我一直從事自然語言理解這部分的工作,我發現 ChatGPT 或者大模型確實是一個很大的技術進步,也讓大家看到很大的機會,有可能在通用 AI 能力上取得較大進展。選擇在這個時期加入大模型相關的工作,因為我看到未來大模型在每個行業裡面都會產生非常重要的作用。

那為什麼選生物醫藥?首先生物醫藥這個領域,有很多可以拿來做自監督學習的資料,比如我們已經積累了超過 20 億的蛋白質氨基酸序列資料。我認為這個領域現在應該可能處於自然語言的 GPT-2 時期,模型的能力尚不能夠在生物資料這個模態上湧現智慧,也就是說不是每一款幹實驗模型預測的藥物,都能超過專家。

在這種情況下,我們希望能夠把專家的經驗和直覺與大模型目前對生物這一部分的理解能力融合在一起,所以就提出了一個對話式助手的想法,一方面把專家的經驗跟直覺用對話的形式告訴大模型,去幫助大模型,另一方面又把大模型設計的結果用自然語言解釋給專家聽。這樣讓人和大模型有效融合,去彌補現在生物模態本身還沒有完全實現湧現智慧的不足。

如果我只做生物模態,就像很多公司那樣,一個最大的問題是我們推薦的分子或者說抗體,可能並不能夠在溼實驗上一做就有效果,臨床完就透過了,因為它現在還沒那麼有效。很多時候,在幹實驗上做得很好的結果,比如我拿排名第一的或排名前十的結果去做溼實驗,可能沒有一個成功。

至於專家,儘管專家有製藥的經驗與直覺,但他沒有辦法跟模型有效溝通,模型並沒有向專家解釋到底為什麼預測出這樣的結果。

機器之心因為設計模型的人並不是藥物研發專家。

聶再清:對,藥物研發專家也沒有時間天天去寫模型,那專家能做的是什麼呢?在小模型時代,專家可能做的就是去構建一個訓練資料集,用於訓練模型,但這件事也要花很多時間,而且做了之後到底能不能大幅提升這個小模型的效能,也是一個問題,如果沒有提升,專家的信心就受挫了,就不去寫訓練資料了。

從怎麼有效地把專家跟人工智慧演算法結合起來的角度,我覺得需要兩個模型的融合,這是在互動的層面,在知識融合這個層面,其實也需要兩個模態模型的融合,我們現在已經有大量用自然語言寫下來的知識,比如發現了一個靶點,也就是發現了一個蛋白質和疾病的關聯,那麼這一部分知識如何與生物模態的知識融合在一起,也是一個亟待打通的問題。所以基於這樣的考慮,我們決定做基於大模型的對話式藥物研發助手。

02、構建生物醫藥領域的基座大模型

機器之心水木分子團隊研發了一個叫做 ChatDD-FM 的大模型,您能給我們介紹一下這個模型嗎?

聶再清:我們希望 ChatDD-FM 成為這個行業的基座模型。要成為基座模型,它首先就得能夠表示這個行業裡面用到的所有資料,當然也能夠去完成這個行業裡的任務,同時還要能夠與生物醫藥行業裡面的專家去進行對話,能夠呼叫這個行業裡面所有的工具去解決專家們的問題。

所以在這裡面天然就存在兩類模態資料的表示,一類是文字模態,還有一類是生物模態。那文字模態除了自然語言,還有結構化的知識(比如知識庫)和非結構化的表示。生物模態裡面則有蛋白質分子、氨基酸序列、單細胞、活性小分子,等等。這裡面的每一種生物資料,我們都會去打造一個編碼器,比如我們會有一個蛋白質的編碼器,也可以叫做蛋白質語言大模型,也有小分子的大模型,單細胞的大模型……對於這每一個大模型,我們也希望專家能夠用自然語言去理解、去溝通,因為專家看到一個蛋白質,或者看到一個小分子,對於這個結構本身,對於它的生物學功能,比如這個小分子基團放在這裡可能會帶來什麼樣的功能等等,這樣一些生物模態語義的資訊,其實專家是希望能夠去與系統互動的。

所以我們構建了一個多模態的生物醫藥大模型,能夠在自然語言和生物語言之間進行翻譯,專家可以用自然語言去提問,他甚至可以用自然語言去說,「幫我再最佳化一下這個分子,減少一下毒性」,然後模型反饋一些不同的建議。

機器之心比如說我可以直接輸入一句話,「給我設計一個感冒藥」,然後它就輸出一個感冒藥?

聶再清:對,理論上是可以的,但從實踐角度講,基於現在這個大模型的能力,這樣做可能不是最優的,現在最優的方法可能是給它一個小分子或者一個骨架,專家用自然語言說「如果更換這個骨架,或者提升某一個效能,需要做什麼,給我一些建議」。甚至最好也不是從頭生成一個分子,因為從頭生成分子涉及到很多複雜的過程和反應,我們需要了解其中的具體細節,比如這個分子它是怎麼合成的等等。因此,可能最好還是透過虛擬篩選的方法,或者說在生成一個分子的時候,然後找到一個跟這個分子相似的的可合成的藥物,在此基礎上再接著最佳化。當然,在實踐中這個過程可能會有所不同,但一定是可以用自然語言去跟大模型溝通的,讓大模型可以朝語義方向去最佳化。

03、多尺度建模及融合:統一到原子

機器之心在生物模態裡既有細胞,又有蛋白質、組織等等,如何在一個模型裡面把這些不同尺度、不同模態的資料都統一到一起,並且去表達它們之間的這些複雜關係呢?

聶再清:這個是一個很好的問題。人體有很多組織,每個組織都有不同的功能,在肝臟就是排毒的,在眼球就是看東西的,因此存在很強的語義(Semantic meaning)。同時,眼球本身又具有空間結構,它裡面有很多細胞,細胞之間要產生相互作用,在每個細胞裡面又有蛋白質,蛋白質和藥物如果要相互作用,可能要與小分子結合,那麼化學小分子裡的原子去產生作用,與蛋白裡的氨基酸結合本身就是一個不同的尺度。

我們的自然語言也是一樣,我們可能有圖書館,可能是分類別的圖書館,有不同功能的圖書館,圖書館裡面又有一本本的書,書裡面又有章節(Section),裡面又有段落(Paragraph),最後到詞,對吧?所以我們覺得人體、生物語言,可能跟自然語言類似,這裡面也可以找到一個最基本的 Token,那就是原子。所以,我們認為基於原子有可能打造一個非常好的生物模態的基礎模型,能夠表達包含小分子和蛋白等不同尺度的相互作用,並且未來可能有更多的生物語義發展起來,所以我們覺得這是一個解決多尺度建模問題的重要方法。

最近我們有合作提出一個工作,起了個名字叫 ESM All-Atom(ESM-AA)。這個模型透過將蛋白質的一部分氨基酸展開(Unzip),把它整合成對應的原子,透過混合蛋白資料與分子資料進行預訓練,這樣模型就同時具備了處理不同尺度生物結構的能力。訓練的時候,不光有蛋白質,我們還把分子、小分子資料也放在模型裡面。為了幫助模型更好地學習和最佳化原子尺度的資訊,我們還利用原子尺度的分子結構資料進行訓練。透過引入多尺度位置編碼的機制,模型可以很好地對不同尺度的資訊進行區分,確保模型能夠精準理解殘基層面和原子層面的位置和結構的資訊。

圖片

ESM-AA 模型多尺度預訓練過程概覽。核心是多尺度位置編碼(Multi-scale PE)模組,分別處理蛋白質和分子的不同尺度資訊。模型的輸入是單獨的蛋白質或分子,而不是蛋白質-分子對,這種設計使得模型能夠學習更通用的表示,適用於各種蛋白質-分子相互作用任務。來源:Zheng et al., arXiv:2403.12995, 2024

機器之心在您看來,如果我們要把所有的生物模態都統一到一個框架下面來表示,還有哪些難點需要去克服?

聶再清:如果要實現一個統一的框架來表示生物模態資訊,首先要有很多的資料,把人體的組織、細胞、蛋白以及小分子藥物之間的關係,透過高通量測序等技術進行數字化,這樣就能產生大量的資料。

未來有了資料之後,怎麼打磨一個模型?這個模型能夠既考慮宏觀又考慮細節,我覺得有可能像視覺識別裡面的物體檢測(Object Detection),每個區域都有語義,例如裡面有一輛車、車上有輪子、輪子還有很多更細的 Object,當然最後它們都由最基本單元——畫素(Pixel)組成。計算機視覺有很多跨尺度研究的工作,與我們最近研究的空間轉錄組單細胞表示學習工作有些類似。

圖片

團隊提出了單細胞與文字跨模態大模型 LangCell,將單細胞 RNA測序(scRNA-seq)資料和相關的後設資料(如細胞型別、發育階段和疾病狀態)整合到一個統一的框架中,實現對單細胞資料的全面理解和多模態表示。來源:S. Zhao et al., LangCell: Language-Cell Pre-training for Cell Identity Understanding, ICML 2024

但是,在融合單細胞、蛋白質和小分子這些跨尺度的生物資料上,在演算法上又需要有大量的創新。不同尺度之間存在複雜的相互影響和依賴關係,如何在模型中準確捕捉和保持這些關係是一個重大挑戰。對此,可以設計跨尺度的注意力機制,確保不同尺度的資訊能夠有效地互相影響和補充,幫助模型有效整合不同尺度的資訊,從而提升模型的準確性和魯棒性。

不同模態的資料在結構、尺寸和特徵分佈上存在顯著差異,如何有效整合這些異質資料是另一個關鍵挑戰。未來我們計劃將更多生物模態的資料都對映到原子表示空間,實現資料的相容和互操作,確保不同尺度和模態的資料都在一個共享的表示空間中進行對映和互動,實現資訊的無縫融合。

在模型訓練過程中,可以結合多工學習,比如蛋白質摺疊、Co-folding、蛋白質-小分子相互作用預測、藥物毒性預測、分子編輯等等,提升模型的泛化能力。利用大規模的生物資料進行預訓練,捕捉豐富的生物知識和多尺度資訊,為下游任務提供一個強大的生物資料 Foundation Model。

機器之心那現在水木分子在資料這方面有什麼投入,或者是說重點投入在哪裡?

聶再清:我們現在大量的資料還是基於公開資料,就是已經做了實驗也被公開出來的資料。除了這種實驗資料以外,我們還有很多文字資料,其中可能有幾千萬的論文、專利,還有很多結構化的知識庫資料,那麼,這些資料如何去跟生物模態的資料對齊,這部分的工作很有挑戰,也是我們資料工作的重點。

假設你要去找到一個小分子跟文字的對齊的 Pair,那這個文字不僅要能描述這個小分子,還應該方方面面都講到,從不同的角度去描述,我們叫做多視角(Multiview representation),比如關於小分子的描述,可以是關於小分子的基團,每個基團起什麼作用,也可以是小分子在宏觀上的性質,還可能是這個小分子在某些結構上某些功能的描述,這樣才有利於大模型學習。不光是在資料處理上,在模型的研發上最好都能考慮到這些。

圖片

團隊提出的分子表示學習模型 MV-Mol,將化學結構的專業知識和生物醫學文字中的非結構化知識以及知識圖譜中的結構化知識融合到一起,利用文字提示來模擬檢視資訊,並設計了一個融合架構來提取基於檢視的分子表示,實現了對分子特性的更準確預測以及在分子結構和文字的多模態理解方面的效能提升。來源:Y. Luo et la., Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge, KDD 2024

我們要做這個行業的助手,就得把知識搞準確,我剛才講的是用來訓練模型的資料,還有一部分資料是在使用者在提問的時候,我們也要把最準確的知識回答給使用者,為了具備這樣的能力,那對於這部分能力,我們正在建一個水木分子的知識庫

我在微軟做了很多實體挖掘、實體搜尋的工作,其實在很早以前我做過一個叫做「人立方」的專案,把各個人的各個資訊,不管是結構化的、非結構化的都集合起來,然後用一個搜尋,一搜就能夠搜到關於這個人的各種各樣的資訊,那個工作在知識圖譜那個年代還是比較有引領作用的,對於我們正在構建的水木分子知識庫,也有很多的借鑑意義。我們正在做一個叫 EntityChat 的技術,希望對一個實體的問題,可以利用它的結構化知識、非結構化的知識和生物模態的知識去回答。

04、藥物研發助手 ChatDD:

產品、服務及商業模式

機器之心水木分子現在是已經推出了產品級的應用 ChatDD,您能夠結合具體的使用場景給我們介紹一下嗎?

聶再清:我們希望 ChatDD 成為這個行業的助手,所以希望它能夠解決藥物研發各個環節中的問題。我們現在主要集中在三大類場景:立項、臨床前藥物研發,以及臨床試驗。在每個領域我們都希望找一個燈塔客戶去合作,看一看他們的真實需求是什麼,我們模型和資料的能力要怎麼才能夠去解決他們最核心的痛點,所以每個場景都不大容易。以立項為例,我們也在與一個比較頭部的公司在合作。

如果藥廠要開展一個專案,首先需要找到足夠的證據提交給這個公司的立項委員會,假設每個公司都有一個立項委員會,它肯定要去做一個規劃方案,提供足夠的材料證明這是一個好專案,能為公司帶來巨大的前景,或者說風險有限,或者我們必須去做等等。

當然,藥物研發的專案有多種,可能是創新藥專案,也叫 First-in-class,也可能是 Best-in-class,就是這個藥人家已經有了,那我們做得更好;還有一個就是仿製藥,別人專利過期了,我們把它給做出來,只要能賺錢也可以。不同的立項,用到的資料和模型的能力可能也不大一樣。

但不管你做創新藥還是做 Best-in-class 或是仿製藥,都要去考慮市場和行業競爭對手。其他的藥發展怎麼樣,這個疾病的人群怎麼樣,這種藥現在有沒有專利,專利是不是要到期,這樣海量資訊的融合、查詢以及預測,如果讓人去做,是非常 Time consuming 的,那用大模型就能夠很好地解決這一部分的工作。

然後還要與專家密切溝通,專家還得要用提示詞(Prompt),不斷地去利用經驗和直覺,與大模型互動,最終還是得讓專家做出判斷。大模型則是能夠給專家提供足夠的證據或者建議,說發現了這個通路,或者發現了這個東西可能是個通路,或者說前人已經在這個方面提出過這麼一個觀點,正好能融合上……透過 ChatDD 這種不斷的互動,我們希望讓這個專案的帶頭人,他和他的團隊最後能夠找到一個非常好的市場空間,去助力他給公司提供立項證明。

機器之心ChatDD 已經能夠在立項這個環節起到非常大的幫助了?

聶再清:對,我們的客戶反應還是非常好的。

機器之心那您公司的產品是模型還是服務或是其他呢?

聶再清:我是覺得我們的盈利模式還是比較多種的,一種就是大模型,客戶可以進行賬號訂閱,也可以進行雲部署或私有化部署。在剛開始階段這是一個比較好的盈利模式。

我們現在正在啟動的一個模式,是提供一些服務。我們公司可能有些顧問,有些生物專家,用 ChatDD 幫客戶立項,或者去做臨床前的藥物發現,或者做臨床,這個模式對我們打造產品也很有好處,能夠提升我們模型的能力,同時端到端地解決客戶問題。做到一定程度以後,如果我們成為這個行業裡靠前的提供商,大量的生物醫藥任務都是由 ChatDD 在幫忙解決,我們可能還有一個模式,那就是應用商店。

因為 ChatDD 要解決問題,並不是完全靠自己的大模型,它還要去查閱行業內最好的資料,去呼叫行業內別的好用的工具。透過這樣的一個助手,把行業裡所有工具整合起來的應用商店模式,我覺得在未來會是一個非常重要的盈利模式,不僅僅是 ChatDD,我覺得未來 ChatGPT,或者說 Llama,就是 Facebook(Meta)可能也會採用這樣的模式,因為它開源之後大家都在用,就有很多整合的空間。那這樣的話這個模式可能就變成了,如果我們 ChatDD 使用了第三方的工具,我們付費給第三方,但抽一部分成。同時也可以開展廣告,比如告訴客戶說有個新的工具,你要不要試一試。

助手一旦真正在使用者心智中佔了主要的地位,在賦能這個行業的生態上面其實有非常大的空間。最終,我覺得在生活上可能會有一個應用商店,在工作上每個行業又會有一個行業的應用商店。

機器之心經過您剛才的介紹,徹底開啟了我對於藥物研發助手的理解,最開始的時候我還侷限在如何去研發更好的藥,如果真正成了一個入口級別的助手,將來的想象力是非常大的。

聶再清:這樣一個(人機互動)入口模式,其實也不只是在大模型火之後才有的,之前我不是在做天貓精靈嗎,那時候很多大廠都在做語音助手。那個助手跟現在這個助手一樣,都是希望成為互動入口,為什麼大家都投那麼多錢去做?就是擔心一旦有的助手成了(新的)入口,以前的商業模式就不在了,所以大家都花了重金去做這件事。當時我們做的也是不錯的,就是在封閉域,也就是在經過訓練的領域,能夠做得非常不錯。

舉個例子,我們在播放助手上就做得不錯,這就是一個封閉域,你可以播放音樂、播放電視,在語音助手出現之前,使用者需要使用遙控器輸入文字來搜尋內容,操作繁瑣。現在直接就用語音,就很簡單,而且最後它還要推薦,比如推薦某首歌,就很難拒絕,每次都問你不聽這首歌嗎?這很難的。在封閉領域,我們上一代的技術就已經非常好了,準確度很高,對使用者也已經產生了價值。

機器之心因為它是基於使用者的愛好學習過的。

聶再清:對的,所以 ChatGPT,包括我們現在的 ChatDD,最大的技術進步就是在開放域上,也就是沒有經過訓練的領域,它也能夠觸類旁通,為什麼說它是通用人工智慧的曙光?你在 n 個任務上用自然語言提示作為訓練,在第 n+1 個沒訓練的任務上它也提升了,那離這個助手的願景就更近了。

機器之心在生物醫藥行業裡面,對這樣的一個全新的助手,接受程度怎麼樣呢?

聶再清:最近我們也在跟很多客戶聊,我覺得前景是非常好的。這樣一個助手它有幾個階段,第一個階段可能提供很多工具的呼叫以及翻譯的能力,就是把生物語言與自然語言進行翻譯,這是馬上就能幫到的。但是在生物模態上直接幫助進行藥物的設計,不管是小分子還是大分子設計,雖然現在也能幫,但效果可能在溼實驗上還不能完全超越人類專家,所以我們得人機協作。如果有一天模型能夠自行設計出每一個分子,人類基本上都只能仰視的時候,那我感覺我們生物醫藥的「ChatGPT 時刻」就到來了。

05、哪些行業適合研發垂直大模型

機器之心現在關於通用大模型和垂直大模型有一個爭議,是從頭訓練一個自己行業的大模型,還是拿一個開源的基座,用自己的資料來微調,這兩者之間的差異如何判斷?

聶再清:我個人覺得可能不需要從頭訓練一個文字的大模型,因為文字這個自然語言的語法,通用大模型都學到了,因為它(資料)多,多的話就學得更準,理解得更清楚。但是在垂直行業裡面,可能有很多自己的資料,這些資料不是自然語言,它有自己的語法,那這個時候你用通用大模型也學不了,對吧?

那所以這個行業是否需要一個垂直大模型,關鍵是它有沒有自己獨特語法的資料,這個資料非常影響它下游任務的效能,如果是,這就是一個需要垂直大模型的行業。當然,是不是隻做這個行業模態的大模型就行了呢?也不行,為什麼呢?因為每個行業裡都有人,都積累了很多行業內部的知識,這些知識是用自然語言構成的,那人也希望用自然語言跟這個大模型進行互動。

為了讓人能夠更好地互動,更好地去了解這個行業的資料,我們還需要一個多模態大模型,將自然語言和這個行業資料對齊,進行翻譯。

機器之心尤其是生物醫藥這樣的行業,包括化學、新材料。

聶再清:自動駕駛。

機器之心那比如說法律大模型,其實就沒有必要自己從頭訓練一個,就用基座大模型,然後用專有的資料微調就好了?

聶再清:對,做持續訓練(Continue train)和做 SFT 就比較足夠。

機器之心那這個非自然語言模態的行業大模型,要實現智慧湧現,或者是說足夠智慧能夠幫助人或者是與人協作,它的規模有一個閾值嗎?

聶再清:規模的來講我覺得肯定也不能太小,一般都說至少 10B 以上。如果有這樣的資料,我們需要去找到訓練這個多模態大模型的 Pair 資料,也就是文字和這個行業模態資料的對齊的 Pair,找到很多這樣的 Pair,這是需要領域知識才能夠去找全、找準。如果不全不準,那可能不行。所以一個做行業大模型的公司,肯定也需要跟這個行業的專家一起構建行業大模型。

06、藥物研發的未來

機器之心您之前提到未來一定是人機協作式的藥物研發,您能描述一下您理想中的人機協作式藥物研發具體是什麼樣子的嗎?

聶再清:人機協作的藥物研發最好的方式就是把人的長處和機器的長處都用上。人的長處在我看來是什麼呢?更多的是這個人的經驗和直覺。那機器的長處是什麼呢?如今大模型能夠幫我們處理海量的資料,呼叫各種各樣的工具,然後自動化地、高效率地去計算,所以把這兩個長處利用好,是我覺得人機協作最重要的一件事情。

具體來講,像 ChatDD,我們就希望製藥的那些「老法師」,能夠把他們的經驗和直覺用一段話,用文字總結,也可以畫一張圖,或者說做成某個檔案,總的來講就是把人的經驗和直覺,能夠數字化下來,變成大模型的輸入,ChatDD 會根據這些輸入,迅速在模型學習過的海量資料、文獻或水木分子知識庫中找到相關的結構化、非結構化和生物模態資料,並給出解答。這個解答過程可以看作是機器對人的一種提示(Prompt)。同樣,專家的提問也是對機器的一種提示。透過這種人機之間的不斷互動和相互提示,我們可以逐步縮小解空間,最終找到正確的解決方案。

ChatDD 的目標是成為醫藥行業內所有人都離不開的智慧助手,大幅提升藥物研發全流程的效率。ChatDD 不光會利用大模型自己學到的知識,也會呼叫醫藥行業內各種最好的專業工具(比方說最受歡迎的視覺化 Docking 工具或者 SOTA 藥物屬性預測演算法),同時也會實時查詢第三方的專業知識庫

我們也在和醫藥行業的專家緊密合作,將醫藥行業的日常工作任務和推理方式自動化。將類似 OpenAI o1 的更強大的推理能力引入生物醫藥大模型,讓推理過程更接近專家的推理過程。希望更多科研人員和生態合作伙伴和我們一起,構建最有效的生物醫藥多模態大模型,共同迎接生物醫藥的「ChatGPT 時刻」,實現生物語言模型的智慧湧現。

嘉賓簡介

聶再清博士,現任清華大學國強教授和 AIR 首席研究員、水木分子首席科學家。從事大資料與人工智慧的前沿創新,以及健康醫療領域的產業應用,是十四五國家重點研發計劃「新藥研發大模型」課題負責人。帶領團隊研發並且開源了全球首個多模態生物醫藥大模型 BioMedGPT 和 OpenBioMed 工具包,賦能生物醫藥行業科研和創新。提出並牽頭研發了全球首個車路協同自動駕駛資料集 DAIR-V2X,解決了自動駕駛產業以往缺乏真實場景車路協同資料集的痛點;團隊提出的貢獻感知聯邦學習框架獲得 AAAI-IAAI 2022 人工智慧創新應用獎,並在智慧醫療健康的產業應用中得到驗證。

聶再清博士 2004 年獲得美國亞利桑那州立大學博士學位,師從美國人工智慧學會前主席 Subbarao Kambhampati 教授,本科和碩士畢業於清華大學電腦科學與技術系。2017 年加入阿里巴巴,任達摩院人工智慧實驗室北京負責人。此前就職於微軟亞洲研究院,任首席研究員,是微軟學術搜尋和人立方的發起人和負責人,也是微軟自然語言理解平臺 LUIS 的技術負責人。發明的知識圖譜相關技術、物件級別的資訊搜尋技術、語音語義一體化理解技術等,被廣泛應用於網際網路搜尋引擎、聊天機器人以及智慧助手等領域。引領了業內大資料驅動的知識圖譜挖掘和應用相關技術的創新,在微軟期間被授予 Microsoft Golden Star 獎。在阿里巴巴期間,作為天貓精靈首席科學家,帶領團隊從無到有實現天貓精靈的演算法研發和創新工作,把人工智慧最前沿技術真正落地到千家萬戶。2019 年他所帶領的團隊獲得吳文俊人工智慧科技進步獎。

相關文章