還在死磕AI咒語?北大-百川搞了個自動提示工程系統PAS

机器之心發表於2024-09-10
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


論文共同第一作者鄭淼,來自於周澤南領導的百川對齊團隊,畢業於北京大學,研究方向包括大語言模型、多模態學習以及計算機視覺等,曾主導MMFlow等開源專案。共同第一作者梁昊,北京大學前沿交叉學科研究院博士生,研究方向為大模型資料側,指導老師為張文濤教授。北大-百川智慧AI系統聯合實驗室成立於2024年1月,旨在圍繞人工智慧模型系統的全技術流程,研究科學和系統的資料生成和質量評估策略、大模型訓練和推理加速等重要問題。聯合實驗室由北京大學博雅特聘教授崔斌和百川智慧聯合創始人陳煒鵬擔任主任。

基於 Transformer 架構的大語言模型正在各個領域取得突破性成果。提示詞工程(Prompt Engineering)在其中的角色至關重要。

用好提示詞,研究人員和開發者能夠引導模型在特定任務上表現得更優秀。這種方法不僅能夠顯著提升模型的效能,還能夠增強模型的適應性,使其在面對各種複雜任務時更加靈活和高效。

此外,提示詞工程還能最佳化模型的學習過程,提高複雜問題處理效率,減少訓練時間和計算資源需求。

相較於傳統的微調方法,提示詞工程能以極低成本使模型適應多個下游任務,大幅節省計算資源和資料收整合本。然而,設計有效的提示詞對非專業人士而言仍具挑戰性,往往需要大量學習和實踐。

直接利用大語言模型進行自動提示工程通常難以取得理想效果。不恰當的提示可能分散模型注意力,反而降低效能。因此,開發一個能輔助使用者,操作簡便的自動提示工程系統變得尤為重要。

PAS:突破性的自動提示工程系統

為應對這一挑戰,北京大學 - 百川聯合實驗室提出了 PAS 自動提示工程系統。PAS 的創新之處在於:

1. 設計高質量的自動提示資料集
2. 對 GPT 模型進行少樣本學習和資料篩選
3. 自動構建精簡而高效的提示資料集
4. 透過微調實現有效的自動提示工程

PAS 能夠對使用者輸入進行簡潔而有效的補充,實現快速、簡單且支援流式顯示的自動提示工程。

在多個基準測試中,PAS 的表現遠超既有的 SOTA 模型,且所需資料量更少。人工評測結果同樣顯示 PAS 具有優異表現,凸顯了其在實際應用中的巨大潛力。

這一突破性成果不僅推動了提示詞工程的發展,也為大語言模型在更廣泛領域的應用鋪平了道路。

圖片

  • 論文地址:https://arxiv.org/abs/2407.06027
  • PKU-Baichuan-MLSystemLab:
https://github.com/PKU-Baichuan-MLSystemLab
https://huggingface.co/PKU-Baichuan-MLSystemLab

方法

圖片

訓練 PAS 主要分為三步:

第一步:構建高質量問題資料集

訓練 PAS 的首要任務是建立一個高質量的問題資料集。如圖 (a) 所示,研究人員根據 LMSYS-1M 和 WildChat 資料集,透過以下三方面篩選出優質問題:

1. 資料去重:運用 embedding 技術結合聚類演算法,有效去除重複資料。
2. 質量篩選:利用百川大模型對資料質量進行評估和篩選。
3. 多樣性保證:最終選出覆蓋 10 多個類別的 9000 條高質量問題資料。

第二步:補充提示工程資料

在這一階段,研究人員綜合利用內部積累的 100 條高質量資料和第一步篩選的問題資料,透過 few-shot learning 方法,藉助 GPT 模型構建自動提示工程資料:

1. 初始資料生成:使用 few-shot learning 指導 GPT 生成初步的提示工程資料。
2. 質量控制:設計 Critique 步驟,再次利用 few-shot learning 讓 GPT 評估生成資料的質量。
3. 迭代最佳化:自動篩除低質量資料,並重新生成,透過多輪迭代確保資料質量。
4. 最終成果:最終得到 9000 條高質量的自動提示工程資料。

圖片

資料分佈

生成的 9000 條資料的分佈情況如上圖所示,確保了資料的多樣性和代表性。

第三步: 微調自動提示模型

最後一步將利用前兩個階段獲得的資料集來微調大型語言模型:

1. 選擇基礎模型:如 Qwen2-7b 等模型。
2. 定向微調:使用高質量資料集進行微調。
3. 專業化訓練:最終得到一個專門用於自動提示工程的大語言模型。

實驗及結果

圖片

人工評測

根據人類評估員的測評,相比先前的 SOTA(State-of-the-Art)模型,PAS 在各領域均展現出較高的勝率。在多個領域的平均勝率超過 50%,勝率與平局率之和更是高達 80% 以上。
圖片
機器評測 Benchmark

為全面評估 PAS 的效能,研究人員選擇了Arena-Hard、Alpaca-Eval 2.0、Alpaca-Eval 2.0 (LC) 三個 benchmark。

隨後,研究人員將 PAS 應用於六個頂尖的 AI 模型,包括:
  • GPT-4(三個版本)
  • GPT-3.5
  • Qwen2-72-Instruct
  • LLaMA3-70B-Instruct

評測結果顯示:

  • 相較於無提示情況和先前的 SOTA 自動提示工程模型,PAS 均取得了顯著提升。
  • 與之前的 BPO 模型相比,PAS 展現出更強的適應性,能夠與各種超大模型相容,並在每個模型上都實現了效能提升。

計算效率分析

PAS 不僅在效能上表現卓越,其計算效率也非常高:在資料效率方面,它僅需 9000 條微調資料便能展現出卓越效能。在輸出效率方面,它能夠限制補充自動提示的長度,通常不超過 30 個詞。

對於使用者體驗而言,PAS 也為大模型帶來了增益,具體來說:
  • 與 BPO 等先前模型不同,PAS 無需修改使用者的原始問題,僅進行補充自動提示。
  • 提供極佳的使用者體驗,響應時間可控。
  • 支援類似 GPT 的流式顯示,進一步提升互動體驗。

例項:PAS 幫助大模型繞開邏輯陷阱

「如果樹上有 10 只鳥,其中一隻被射死了,地上有多少隻鳥?」

這個看似簡單的問題實際上隱藏著一個巧妙的邏輯陷阱,你看到它可能也需要反應幾秒,才知道樹上還剩 9 只鳥,而地上只有 1 只。
圖片
正如圖上所示,在沒有 PAS 輔助的情況下,GPT 給出了錯誤的回答。而 PAS 系統透過補充提示詞,顯著改善了模型的表現:

在 PAS 的引導下,模型新一輪的回答展現出了顯著的提升,不僅成功規避了問題中的邏輯陷阱,展示了清晰的、多步驟的邏輯推理過程,還能在給出正確答案之外引導使用者理解整個推理過程。

感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。

相關文章