擴散引導語言建模(DGLM):一種可控且高效的AI對齊方法

deephub發表於2024-10-04

隨著大型語言模型(LLMs)的迅速普及,如何有效地引導它們生成安全、適合特定應用和目標受眾的內容成為一個關鍵挑戰。例如,我們可能希望語言模型在與幼兒園孩子互動時使用不同的語言,或在撰寫喜劇小品、提供法律支援或總結新聞文章時採用不同的風格。

目前,最成功的LLM正規化是訓練一個可用於多種任務的大型自迴歸模型。然而,現有的引導生成方法各有優缺點:

  1. 微調方法雖然有效,但改變了模型權重,可能會降低LLM的效能。此外,如果新應用需要獨特的屬性組合(如幽默但不具攻擊性),就需要微調和部署新的專用模型。
  2. 即插即用方法不改變模型權重,而是使用額外的輕量級分類器或啟發式方法來影響生成過程。這些方法靈活性高,不需要微調或託管專用模型。但由於它們通常只改變最後一層的logits,容易產生解碼錯誤,這些錯誤會在自迴歸生成過程中級聯並降低輸出質量。
  3. 擴散模型最初在影像生成領域取得了突破,它們透過迭代"去噪"高斯噪聲樣本來生成目標資料分佈的樣本。這種迭代生成過程自然允許透過簡單的似然函式進行即插即用控制。然而,目前的文字擴散模型在困惑度和生成質量上仍然不如自迴歸模型。

為了解決這些挑戰,研究者提出了一種新的框架:擴散引導語言建模(Diffusion Guided Language Modeling, DGLM)。DGLM旨在結合自迴歸生成的流暢性和連續擴散的靈活性,為可控文字生成提供一種更有效的方法。

DGLM方法詳解

DGLM框架包含三個主要元件:擴散網路、輕量級提示生成器和預訓練的自迴歸解碼器。其工作流程如下:

  1. 給定一些文字字首,使用擴散模型取樣生成可能的延續的嵌入語義提案。
  2. 在取樣過程中,可以選擇性地執行即插即用控制以強制某些條件(如低毒性)。
  3. 取樣語義嵌入後,提示生成器將嵌入處理成軟提示。
  4. 軟提示引導自迴歸解碼器生成與提案對齊的文字。

圖1: DGLM框架概覽。給定一些字首,我們首先用擴散模型生成語言延續的嵌入表示。在這個階段,我們可以選擇性地用輕量級分類器進行即插即用引導干預。我們將延續嵌入對映到軟提示,以引導自迴歸解碼器生成與生成的嵌入語義對齊的語言。

https://avoid.overfit.cn/post/e935645b2c5743458e78e333137a79b8

相關文章