REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

新闻助手發表於2025-03-04

iDreamer 致力於打造一個激發科研熱情的全球中心。我們幫助教授將願景變為現實,為學生照亮塑造未來的道路

在這裡,沒有資源的壁壘,沒有思想的界限,只有團結一心追求卓越。我們相信,真正的研究應該屬於每一個有才華、有夢想的人。透過整合全球資源、最佳化協作,我們確保每一位科研人員在這裡都能找到自己理想的夥伴和方向

生成式人工智慧(Generative AI)正在逐漸從單一模型訓練的階段,過渡到更加複雜的系統最佳化時代。隨著大語言模型(LLM)及其相關元件在多種任務中的廣泛應用,如何高效地協調並最佳化這些元件的表現,已成為人工智慧領域的重要課題。近年來,針對複雜系統的自動化最佳化框架的研究逐步增多。然而,傳統最佳化方法往往侷限於即時反饋和區域性調整,難以有效應對多輪推理和複雜任務中逐步演化的需求。

REVOLVE作為一種新的最佳化框架,提出了一種不同的思路。透過引入歷史響應相似度的概念,REVOLVE不僅最佳化當前的輸出,還能在多輪迭代中引導模型實現持續改進。與傳統方法依賴即時反饋不同,REVOLVE透過捕捉響應演化的趨勢,推動最佳化過程更加穩定且細緻,幫助模型逐步突破區域性最優,提升整體效能。透過這種方式,REVOLVE為大語言模型的最佳化提供了新的視角,併為AI系統的長期進化和自我修正開啟了潛在的方向。本文將介紹REVOLVE的核心概念、創新機制,並探討其在解決方案最佳化、提示最佳化和程式碼最佳化等任務中的應用,分析其在多種場景中的實際效果。

專案主頁:https://llm-revolve.netlify.app/

論文連結:https://arxiv.org/pdf/2412.03092

程式碼倉庫:https://github.com/Peiyance/REVOLVE

現有最佳化方法

目前,許多現有的AI最佳化方法可分為三類:

Chain-of-thought(CoT)方法

CoT推理方法依賴一次性推理和逐步思考來解決任務,雖然它透過逐步推理幫助模型在單次推理過程中提供較為清晰的步驟,但由於缺乏迭代最佳化和歷史響應的整合,這種方法無法從任務的長期演化中汲取經驗。因此,CoT無法應對需要細緻調整和逐步改進的複雜任務,也不能透過迭代最佳化逐步提升準確性,在複雜任務中往往難以有效提升效能。

基於搜尋的方法(Search-Based Methods)

PromptAgent、Boosting-of-Thought等提示詞最佳化方法利用搜尋演算法(如蒙特卡洛樹搜尋或迭代探索)試圖透過反覆探索不同路徑來最佳化任務提示或推理路徑。儘管這種方法能夠在有限的區域性搜尋空間內反覆嘗試不同的路徑,但它依賴於區域性搜尋,缺乏全域性視角,容易停留在區域性最優解。特別是在深度推理和多階段決策任務中,搜尋方法表現不佳,且由於無法全面考慮任務的全域性演化,可能導致計算資源的浪費。

基於文字梯度的最佳化(Textual-Gradient-Based Methods)

TextGrad、ProTeGi等方法透過即時反饋調整每次輸出,關注當前的任務結果而忽視歷史響應的積累效應。這種做法導致最佳化過程可能在某個階段停滯,無法有效提升模型的長期效能。雖然即使引入動量策略(如Momentum-Enhanced TextGrad)來加速最佳化,依然僅依賴即時反饋,且存在過度調整和不穩定更新的風險,難以確保最佳化持續朝著正確方向前進,特別是在複雜任務中,最佳化過程常常無法持續改進。

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

核心思想

在文字最佳化(Textual Optimization)的框架中,LLM 智慧體系統通常被視為一個計算圖(Computation Graph),透過自然語言作為媒介,實現不同元件之間的“梯度”傳遞。最佳化的過程是透過反向傳播,將語言模型的輸出作為反饋,傳遞到所有可能的早期元件,從而調整系統中的各個變數。這一過程類似於深度學習中的反向傳播,只不過這裡傳播的不是數值梯度,而是自然語言形式的反饋。

在當前的最佳化正規化中,系統透過基於即時反饋的機制來調整模型輸出。這種方法透過分析每次輸出與目標之間的誤差,逐步引導模型輸出更符合期望的結果:

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

其中,REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸是任務損失函式,REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸表示模型在第 t 次迭代中收到輸入提示REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸 後的響應結果。我們使用REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸來表示基於文字的的梯度,指代損失函式相對於輸入提示的變化率,這與傳統的導數具有相似的作用。透過這種反饋,最佳化器可以調整輸入提示,從而逐步改進任務效能。

然而,這種最佳化正規化存在一定的侷限性。它依賴即時反饋,每次調整僅根據當前迭代的反饋進行,忽視了歷史響應的積累效應。這導致最佳化過程在面對複雜任務時可能停滯,尤其是當任務需要多輪推理和逐步演化時,模型的最佳化效果逐漸減弱。由於缺乏對任務全域性演化的把握,現有方法容易陷入區域性最優,無法充分利用多輪迭代中的資訊,難以持續提升模型的表現。

REVOLVE透過引入響應演化的跟蹤,使最佳化過程更為精細和穩定。我們不再僅依賴單次反饋,而是透過考慮多輪迭代中響應的變化趨勢,逐步推動模型最佳化。作者透過以下公式擴充套件了最佳化過程:

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

其中,REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸是相似度函式,表示當前響應與前一次響應之間的相似性。透過引入這一項,REVOLVE能夠綜合過去的資訊,更全面地指導最佳化過程。

為了更清晰地定義相似度函式,作者使用如下公式量化響應之間的差異:

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

該相似度函式透過計算響應差異來反映任務的演化趨勢,使得最佳化過程能夠從全域性角度出發,避免區域性最優。

接下來,假設連續提示的差異REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸 足夠小,我們可以將其等價地視為梯度變化率。於是,我們得出以下公式:

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

最終,REVOLVE的最佳化公式可以被重寫為:

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

這一公式引入了第二階最佳化的思想,模擬了Hessian矩陣的作用。透過考慮梯度變化率,REVOLVE能夠更全面地分析最佳化過程,從全域性角度推動模型最佳化,避免陷入區域性最優,並確保多輪迭代中的持續進化。


REVOLVE能做什麼

1.解決方案最佳化 (Solution Optimization):

REVOLVE能夠顯著提升模型在複雜科學問題上的解答能力,尤其是在需要深度推理和複雜決策的任務中。例如,在MMLU-Machine Learning benchmark上,REVOLVE透過最佳化解答過程,在Llama-3.1-8B模型上相較於SOTA baseline提升了 20.72%的準確率,充分展示了其在複雜問題求解中的優勢。

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

2. 提示詞最佳化 (Prompt Optimization):

在推理任務中,REVOLVE透過最佳化提示詞,幫助大語言模型提升推理能力。

例如,在Big Bench Hard (BBH-Objective Counting)的物體計數任務上,透過 REVOLVE最佳化的 prompt,能將 GPT-3.5-turbor的 QA 準確率從 77.8% 提升到 95.5%。 此外,REVOLVE在Llama-3.1-8B模型上相對於SOTA baseline帶來了7.8%的效能提升,展現了其在推理任務中的卓越效能。

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

3. 程式碼最佳化 (Code Optimization):

REVOLVE同樣能夠最佳化複雜的程式設計任務解決方案,提升模型在程式碼生成中的表現。例如,在LeetCode Hard基準測試中,Llama-3.1-8B模型透過REVOLVE最佳化,相對於SOTA baseline效能提升了29.17%,證明了該方法在程式碼最佳化中的卓越效能。

REVOLVE:響應演化驅動的智慧最佳化框架,破解傳統AI最佳化瓶頸

在實驗中,REVOLVE還體現瞭如下優勢:

1.跨模型普適性

REVOLVE展現了極高的跨模型適應性,並且在多種大語言模型上都表現出色。在如GPT-3.5-turbo-0125、GPT-4-0125-preview、Gemini 1.5 ProLlama 3.1 8B Instruct等多個模型架構中,REVOLVE的最佳化效果均穩定可靠,準確率普遍提升了5-7%,證明了其在不同系統架構中的廣泛適用性。

2. 處理弱模型的優勢

對於計算能力較弱的模型,如GPT-3.5-turbo-0125Llama 3.1 8B Instruct等,REVOLVE展現出了顯著的效率優勢。透過一次性最佳化,REVOLVE能夠為這些弱模型提供強大的效能提升,從而幫助它們在推理任務中超越原本的能力。此特性使得REVOLVE非常適用於低成本的部署場景,特別是在資源有限的環境中,它能夠為弱模型提供高效的最佳化效果,而無需使用高成本的強大模型進行多輪推理。

3. 計算資源效率

REVOLVE在計算資源使用上表現出色,儘管每次迭代的執行時間略高,但它透過減少迭代次數,顯著節省了總體執行時間。具體結果如下:

(1)在物體計數資料集上,REVOLVE相較於TextGrad減少了50%的總執行時間。

(2)在解決方案最佳化任務中,REVOLVE比TextGrad節省了26.14%的執行時間,而Momentum-Enhanced TextGrad由於不穩定性,執行時間增加了77.65%

(3)在程式碼最佳化任務中,REVOLVE比基線方法減少了16.67%的總執行時間。

(4)在GPU記憶體使用方面,REVOLVE與基線方法相當,未表現出顯著的資源消耗增加。

結語

總的來說,REVOLVE為AI系統的長期發展提供了一種新的視角。透過系統性地整合歷史反饋,REVOLVE有效解決了傳統方法在複雜任務中常見的停滯和區域性最優問題,從而推動了模型的深度自我修正和持續最佳化。這種最佳化方法所體現出的適應性、效率和跨模型的能力,使其在未來的AI應用中具備了更大的潛力。

相關文章