大模型能自己最佳化Prompt了,曾經那麼火的提示工程要死了嗎?

机器之心發表於2024-03-18

人類設計 prompt 的效率其實很低,效果也不如 AI 模型自己最佳化。

2022 年底,ChatGPT 上線,同時引爆了一個新的名詞:提示工程(Prompt Engineering)。

簡而言之,提示工程就是尋找一種編輯查詢(query)的方式,使得大型語言模型(LLM)或 AI 繪畫或影片生成器能得到最佳結果或者讓使用者能繞過這些模型的安保措施。現在的網際網路上到處都是提示工程指南、快捷查詢表、建議推文,可以幫助使用者充分使用 LLM。在商業領域,現在也有不少公司競相使用 LLM 來構建產品 copilot、自動化繁瑣的工作、創造個人助理。

之前在微軟工作過的 Austin Henley 最近採訪了一些基於 LLM 開發 copilot 產品或服務的人:「每一家企業都想將其用於他們能想象到的每一種用例。」這也是企業會尋求專業提示工程師幫助的原因。

但一些新的研究結果表明,提示工程幹得最好的還是模型自己,而非人類工程師。

這不禁讓人懷疑提示工程的未來 —— 並且也讓人越來越懷疑可能相當多提示工程崗位都只是曇花一現,至少少於當前該領域的想象。

自動微調的提示很成功,也很怪

當面對奇怪的提示工程技術時,LLM 的表現常常很怪異又不可預測。加州的雲端計算公司 VMware 的 Rick Battle 和 Teja Gollapudi 也為此感到困惑。舉個例子,人們發現如果讓模型自己一步步地解釋自己的推理過程(即思維鏈技術),其在許多數學和邏輯問題上的效能都能得到提升。更奇怪的是,Battle 發現,如果為模型提供正向的 prompt,比如「這會很有趣」或「你和 ChatGPT 一樣聰明」,有時候模型的效能也會提升。

Battle 和 Gollapudi 決定系統性地測試不同的提示工程策略會如何影響 LLM 解決小學數學問題的能力。他們使用 60 種不同的 prompt 組合分別測試了 3 種不同的開源語言模型

圖片

  • 論文標題:The Unreasonable Effectiveness of Eccentric Automatic Prompts

  • 論文地址:https://arxiv.org/pdf/2402.10949.pdf

他們得到的結果呈現出了驚人的不一致性。甚至思維鏈 prompt 設計方法也不總是好的 —— 有時候有用,有時候卻有害。

「唯一的趨勢就是沒有趨勢,」他們寫道:「對於任意給定模型、資料集和提示工程策略的某個特定組合而言,最好的方法很可能都非常具有針對性。」

有一種方法可以替代這種常常導致不一致結果的試錯風格的提示工程:讓語言模型自己設計最優的 prompt。最近,人們已經開發出了一些自動化這一過程的新工具。給定一些示例和定量的成功指標,這些工具可迭代式地找到輸送給 LLM 的最優語句。Battle 及同事發現,在幾乎所有案例中,這種自動生成的 prompt 的表現都優於透過試錯方法找到的最佳 prompt。而且自動方法的速度還快得多 —— 只需一兩個小時,而不是好幾天。

另外,演算法輸出的這些最優 prompt 往往非常怪異,人類基本不可能想出來。Battle 說:「我簡直不敢相信它生成的一些東西。」

舉個例子,有一個 prompt 就是直接把《星際迷航》的說話風格搬過來了:「指揮官,我們需要您繪製一條穿過這股湍流的路線並定位異常源。使用所有可用資料和您的專長引導我們度過這一困境。」很顯然,如果以對待柯克艦長的態度對待這個特定的 LLM,就可以幫助它更好地解答小學數學問題。

Battle 表示,以演算法方法最佳化 prompt 在原理上是可行的,畢竟語言模型本就是模型。「很多人將這些東西擬人化,因為它們『說英語』,」Battle 說,「不,它不是說英語,而是做大量數學運算。」

事實上,根據其團隊的研究成果,Battle 表示:人類再也不應該人工最佳化 prompt。

「你就坐在那裡,試圖找到單詞的某種神奇組合,從而讓你的模型在你的任務上得到最佳的可能表現。」Battle 說,「但這個研究結果卻會告訴你『別費心了』。你只需開發一個評分指標,讓系統可以自己判斷一個 prompt 是否比另一個好,然後讓模型自己去最佳化就行了。」

自動微調的提示也能讓影像變好看

影像生成演算法也能受益於自動生成的 prompt。

近日,Vasudev Lal 領導的一個英特爾實驗團隊做了一個類似的研究專案,不過他們是最佳化影像生成模型 Stable Diffusion 的 prompt。「如果只能讓專家來做提示工程,那看起來就更像是 LLM 和擴散模型的一個 bug,而不是功能。」Lal 說,「所以,我們想看看能否自動化這種提示工程。」

Vasudev Lal 的團隊開發了一種工具:NeuroPrompts。

圖片

  • 論文標題:NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation

  • 論文地址:https://arxiv.org/pdf/2311.12229.pdf

該工具可以自動改進簡單的輸入 prompt,比如「騎馬的男孩」,從而得到更好的影像。為此,他們一開始使用了一些人類提示工程專家設計的 prompt。然後訓練了一個語言模型來將簡單 prompt 轉換成這些專家級 prompt。在此基礎上,他們繼續使用強化學習來最佳化這些 prompt,從而得到更加美觀的影像。這裡的美觀程度又是由另一個機器學習模型 PickScore 判斷的(PickScore 是近期出現的一個影像評估工具)。

圖片

左圖是使用一般的 prompt 生成的影像,右圖是 NeuroPrompt 最佳化 prompt 之後再生成的影像。

這裡也一樣,自動生成的 prompt 的表現優於人類專家給出的 prompt(用作起點),至少根據 PickScore 指標是這樣的。Lal 並不認為這出人意料。「人類只會使用試錯方法來做這件事。」Lal 說,「但現在我們有了這種完全機器式的、完整迴路的方法,再輔以強化學習…… 因此我們可以超過人類提示工程。」

由於審美是非常主觀的,因此 Lal 團隊希望讓使用者可以在一定程度上控制 prompt 最佳化的方式。在他們的工具中,使用者除了可以指定原始 prompt(比如騎馬的男孩),也能指定想要模仿的藝術家、風格、格式等。

Lal 相信隨著生成式 AI 模型的發展,不管是影像生成器還是大型語言模型,對提示工程的奇怪依賴就會消失。「我認為研究這些最佳化方法非常重要,最後它們可以被整合進基礎模型本身之中,這樣你就無需複雜的提示工程步驟了。」

提示工程將以某種形式繼續存在

Red Hat 軟體工程高階副總裁 Tim Cramer 表示:就算自動微調 prompt 變成了行業規範,某種形式的提示工程崗位依然不會消失。能夠滿足行業需求的自適應生成式 AI 是一個非常複雜、多階段的工作,在可預見的未來裡都需要人類的參與。

「我認為提示工程師將會存在相當長一段時間,還有資料科學家。」Cramer 說,「這不僅僅只是向 LLM 提問並確保答案看起來不錯。提示工程師其實要有能力做很多事情。」

「做出一個原型其實很容易。」Henley 說,「難的是將其產品化。」Henley 表示,當你在構建原型時,提示工程就是拼圖中的相當大一部分,但當你開始構建商業產品時,還需要考慮其它許多因素。

開發商業產品的難題包括確保可靠性(比如在模型離線時得體地應對);將模型的輸出調整成合適的格式(因為很多用例需要文字之外的輸出);進行測試以確保 AI 助理不會在少數情況下做出有害的事情;還要確保安全、隱私與合規。Henley 表示,測試與合規尤其困難,因為傳統的軟體開發測試策略不適合非確定性的 LLM。

為了完成這大量的任務,許多大公司都正在推出一個新的工作崗位:大型語言模型運營(LLMOps)。該崗位的生命週期中就包含提示工程,但也包含其它許多部署產品所需的任務。Henley 表示,機器學習運營工程師(MLOps)是最適合這個崗位的,這是 LLMOps 的前身。

不管這個職位是叫提示工程師、LLMOps 工程師還是其它新名詞,其特性都會不斷快速變化。「也許我們現在是叫他們提示工程師,」Lal 說,「但我認為其互動的本質會不斷變化,因為 AI 模型就在不斷變化。」

「我不知道我們是否會將其與另一類工作或工作角色結合起來,」Cramer 說,「但我認為這些崗位不會很快消失。現在這一領域實在太瘋狂了。每個方面都變化很大。我們無法在幾個月內就搞明白這一切。」

Henley 表示,在某種程度上,現在正處於該領域的早期階段,唯一壓倒性的規則似乎就是沒有規則。他說:「現在這個領域有點像是狂野西部。」

原文連結:https://spectrum.ieee.org/prompt-engineering-is-dead

相關文章