幻覺與創新:AlphaFold3為何失敗?

banq發表於2024-06-16

AlphaFold3 是一個技術傑作:

  • 它減少了多序列比對的使用(需要使用相似的例子來預測蛋白質相互作用),並引入了一個新的擴散模塊來進行結構預測。

換句話說:

  • 他們在提高整體效能的同時簡化了 AlphaFold2。
  • 由於使用生成擴散方法容易產生幻覺,所以這不是一件容易的事。

什麼是擴散模型?
擴散模型(也稱為擴散機率模型):使用變分推理訓練的馬爾可夫鏈。

擴散模型的目標是透過對資料點在潛在空間中擴散的方式進行建模來學習資料集的潛在結構。

擴散模型於 2015 年提出,其靈感來源於非平衡熱力學。

擴散模型可應用於多種任務,包括影像去噪、修復、超解析度和影像生成。例如,影像生成模型將從隨機噪聲影像開始,然後在對自然影像進行逆擴散過程訓練後,該模型將能夠生成新的自然影像。

OpenAI 於 2022 年 4 月 13 日釋出的文字到影像模型DALL-E 2就是一個最近的例子。它對模型的先驗(給定文字標題生成影像嵌入)和生成最終影像的解碼器都使用擴散模型。

生成模型與幻覺
一般來說,生成模型(包括但不限於生成擴散模型)容易產生幻覺。幻覺是指生成的輸出看似合理,但不準確或沒有基於給定的輸入資料。以下是生成模型容易產生幻覺的一些主要原因:

生成模型中出現幻覺的原因

  1. 訓練資料限制:
    • 質量:如果訓練資料包含噪音、錯誤或偏差,模型可能會學習重現這些缺陷,從而導致幻覺輸出。
    • 數量:訓練資料不足會導致模型無法學習資料的真實分佈,從而導致其產生不合理的結果。
  2. 模型複雜度:
    • 過度擬合:具有許多引數的複雜模型可能會過度擬合訓練資料,捕獲噪聲和虛假模式而不是底層資料分佈。
    • 泛化:從訓練資料推廣到看不見的輸入的挑戰可能導致生成的輸出不能準確反映意圖
  3. 機率性質:
    • 生成模型通常從學習到的機率分佈中進行取樣。此取樣過程可以產生不直接與特定輸入資料相關的輸出,從而導致
  4. 調理和指導:
    • 弱條件作用:如果
    • 不一致的條件:不匹配
  5. 模型架構和目標:
    • 生成模型的架構和物件
    <ul>
  6. 型別

    1. 生成對抗網路 (GAN)
    2. 變分自動編碼器 (VAE)
    3. 自迴歸模型(遞迴模式 大模型LLM)
    4. 擴散模型

    如何避免幻覺?
    在設計生成模型時,通常需要根據應用情況平衡創造力和準確性:

    • 對於重視創新應用(例如音樂、繪畫、小說、程式設計、科研寫作),創造力至關重要,一定程度的幻覺可能是可以接受的,甚至是可取的。
    • 對於事實應用(例如新聞生成、教育內容、醫療資訊),準確性至關重要,並且必須儘量減少幻覺。這部分搜尋引擎已經可以完全擔任。

    AlphaFold3創新來源於幻覺?
    由於使用生成擴散方法容易產生幻覺,所以這是一件有趣的事情。

    AlphaFold3 整合了已開發的用於預測特定相互作用的模型中的元素(因此您可以將其視為一種概括或預測不同型別相互作用的單一模型)。此外,該模型的解析度要高得多。

    總而言之,AlphaFold3 的表現優於研究人員在尋找新藥時使用的各種軟體和模型。這一切都歸功於一個模型。

    AlphaFold3 是否會產生與之前版本相同的顛覆性影響?
    AlphaFold2 釋出時,所有研究人員都可以使用整個程式碼。但 AlphaFold3 帶有“虛擬碼”(幻覺),無論它有多詳細,都無法輕鬆重現模型。

    傳統上,最負盛名的研究期刊對程式碼釋出一直以來都存在模糊性,但在出現AlphaFold3虛擬碼情況下,就開始明確表示不能釋出虛擬碼。

    此舉激起了科學界的憤怒,並最終引發了一封公開批評信

    我們對 AlphaFold3 在《自然》雜誌上發表時缺少程式碼甚至可執行檔案感到失望。儘管 AlphaFold3 擴充套件了 AlphaFold2 的功能,包括小分子、核酸和化學修飾,但它是在沒有以高通量方式測試和使用該軟體的手段的情況下發布的。——來源

    出乎意料的是,《自然》雜誌發表社論回應了批評,解釋了其同意釋出 AlphaFold3 但未提供程式碼或模型的原因。

    在生物醫學領域,只有被社群採用(複製、使用、修改和調整)的東西才算真正成功。

    LLM大語言模型
    近幾個月來,一些面向健康領域的開源模型已經問世。研究人員對這些模型進行了微調,以獲得能夠生成新序列的LLM 。還代表原始解決方案的模型,例如蛋白質語言模型(結合大型語言模型和蛋白質模型的模型)。

    這些模型向我們展示了未來的一些趨勢。研究人員正在將開源模型用於醫學和生物學應用。

    • 一開始,AlphaFold2 和 ESMfold 等模型用於推理以預測蛋白質的結構。然後,生物學家在他們的出版物中或用於假設生成中使用這些結構。
    • 在第二階段,當研究人員想要使這些模型適應特定任務時,他們會對這些模型進行微調。或者當他們需要不同的模型時(並且可用的模型不具備這些功能),他們會組合這些模型。

    AlphaFold3 將作為對學術界的“警示”
    提醒他們依賴 DeepMind 等科技公司開發和分發 AlphaFold 等工具的風險。

    AlphaFold2 已證明能夠根據序列預測結構。它並不是研究的終點,因為它有幾個侷限性。AlphaFold3 彌補了其中一些缺陷,但是:

    • AlphaFold3 不會對社群產生同樣的影響,因為它是封閉源,因此研究人員不能自由使用。
    • 幻覺也限制了它的實用性。


    這場革命分為三個階段:

    • 在第一階段,研究人員按原樣使用 LLM。僅用於推理,並且大多數情況下透過專用伺服器。這種用途主要是為了產生新的科學假設。
    • 在第二階段,模型被修改或調整以適應特殊情況。研究人員使用專有資料對模型進行微調,或提取表示以用於其他應用程式。隨著更多模型可用,社群開始將它們組合成越來越複雜的管道。
    • 在第三階段,幾個團隊開始從頭開始建立模型。對於許多應用來說,從頭開始訓練模型比修改為其他內容訓練的模型更便宜。


     

    相關文章