全新TextGrad框架：用GPT-4o作引擎，自動最佳化端到端任務

机器之心發表於2024-07-04

原文網址 : https://www.jiqizhixin.com/articles/2024-07-04-13

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

該文章的作者團隊來自於史丹佛大學，共同第一作者團隊Mert Yuksekgonul，Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang

Mert Yuksekgonul，史丹佛大學博士生，師從James Zou 和 Carlos Guestrin教授。研究方向包括 AI系統自我最佳化以及其安全性和可靠性。

Federico Bianchi，Xyla AI 工程師，史丹佛大學博後，師從 Dan Jurafsky 和 James Zou教授。研究方向為機器學習和大語言模型的開發。

Joseph Boen，史丹佛大學博士生，師從James Zou，研究方向為AI在科學中的應用。

劉晟，美國史丹佛大學博後，師從 James Zou和 Lei Xing 教授，博士畢業於紐約大學資料科學和人工智慧。研究方向包括深度學習的安全性和可靠性，多模態大語言模型，以及AI在生物醫療方向應用。

黃治，現賓夕法尼亞大學教授，史丹佛大學博後。博士畢業於普渡大學。研究方向為生物醫學工程，AI在病理學的應用。

^{TextGrad 團隊}

用文字做梯度下降？！最近，來自史丹佛大學的研究者，推出了全新的 TextGrad 框架，來高效協調和最佳化由大語言模型 (LLM) 等元件構成的 AI 系統，自動最佳化端到端任務效能。

目前，用 GPT-4o 作為引擎的 TextGrad 最佳化後的 AI 系統能實現：

LeetCode-Hard 最好的結果
GPQA SoTA
發現新的分子同時兼顧藥效和毒性等多個最佳化目標
設計出超過人工的癌症放療計劃

TextGrad website: http://www.textgrad.com/
TextGrad paper: https://arxiv.org/abs/2406.07496
TextGrad Github：https://github.com/zou-group/textgrad

生成式人工智慧正處於從單一模型訓練向複雜系統最佳化的正規化轉變中，開發合成 AI 系統的原則化自動最佳化方法成為當下最重要的新挑戰之一。如何高效協調最佳化大語言模型 (LLM) 等 AI 元件，自動最佳化端到端任務效能，成為當前最緊迫的挑戰之一。要說 AI 界有多卷，還得看史丹佛大學。這兩天，史丹佛大學的研究者們又放大招了，推出了全新的 TextGrad 框架，為這一難題提供了一種全新的解決方案。借鑑了同是史丹佛釋出的 DSPy，融合了 PyTorch 的強大梯度反向傳播功能，實現自動最佳化複雜 AI 系統。本文將深入剖析 TextGrad 的核心理念和最佳化機制，探討它的廣闊應用前景，展望語言驅動最佳化的未來圖景。

核心思想

TextGrad 將 LLM 應用視為一個計算圖 (Computation Graph)，以自然語言為媒介實現不同元件之間的 "梯度" 傳遞。透過從語言模型的輸出中反向傳播文字反饋到所有可能的早期元件，來最佳化各種系統中的各種變數。在 TextGrad 中，一切都是文字，這意味著我們使用語言模型來 1）評估輸出，2）批評輸出，3）更新輸入。這一過程有點類似於 PyTorch 的反向傳播，只不過傳播的不再是數值梯度，而是文字形式的反饋。

這種統一的語言互動介面賦予了 TextGrad 極強的普適性，它將 prompt、question、output 等都視為 variable，不要求其可微，具有超強的相容性。TextGrad 能和任意支援自然語言 I/O 的 LLM 或者其它 API 無縫協作，也不要求計算圖中的其他函式可微。這使得它非常適合整合 retrieval、tool calling 等 plug-and-play 能力，構建靈活多變的複合 AI pipeline。TextGrad 也不需要手工設計 prompt，自動搜尋最憂的任務描述直接參與最佳化。這讓開發者從 prompt engineering 中解放出來，有望自動找到更棒的 in-context learning 正規化。

TextGrad 能做什麼？

1. 提示（prompt）工程透過 TextGrad 最佳化的 prompt，能將 GPT-3.5-turbor 的 QA 準確率從 78% 提升到了 92%，而且只需進行少量幾次的最佳化迭代。如果你想復現這個成果並進一步探索 TextGrad，TextGrad 團隊已經為你準備好了一個簡單的教程。

^{TextGrad 能被非常簡單方便地應用到 prompt engineer（提示工程）上。}

2. 最佳化模型輸出除了更新模型的 prompt，模型的回答（response）以及文字表示的輸出，也能夠得到 TextGrad 的最佳化。上圖， TextGrad 最佳化了 LLM 生成的 LeetCode 問題的程式碼。

還有更多 AI for science 的應用！

藥物探索（Drug Discovery）

使用 TextGrad，我們可以最佳化化學結構的兩個關鍵屬性：藥物相似性（即藥物在體內吸收的難易程度）和結合親和力（即藥物與靶蛋白結合的緊密程度）。藥物相似性透過 QED 評分來衡量，範圍是 0 到 1，1 表示最符合藥物特性；結合親和力透過 Vina 評分來衡量，評分越負越好。

^{左圖：在 TextGrad 最佳化 10 次迭代前後的分子藥物相似性和結合親和力分佈，與針對相同靶蛋白的臨床批准藥物進行比較。右圖：TextGrad 最佳化 10 次迭代的示例軌跡，比較臨床批准藥物的屬性。}

腫瘤放療治療計劃（Radiotherapy Treatment Planning）

TextGrad 也可以用來最佳化放射治療計劃，該計劃確定放射治療所需的劑量並精確定位需要治療的部位。特別是，治療計劃的目標是將規定的輻射劑量傳遞到腫瘤，同時保護關鍵的正常組織免受不安全劑量的影響。醫生通常透過不斷試錯，反覆調整最佳化治療計劃，直到計劃符合臨床要求。這使得整個過程效率低下、耗時且成本高昂。TextGrad 則自動向 AI 主導的規劃系統提供梯度，最佳化放射治療計劃，自動權衡腫瘤和附近健康組織。

TextGrad 用語言打通了不同認知模組之間的屏障。它讓 LLM 參與到了自己的迭代最佳化中，透過內省、評判、創造等 high-level 的認知能力實現持續進化。從本質上看，TextGrad 的意義遠不止於最佳化 pipeline 的效能，它向我們展示了一種透過語言實現 AI 自我認知、自我修正的可能性。這條 “Language-Driven Optimization” 的道路，或許也是目前很多 “幻覺問題” 的一劑良藥。TextGrad 已經被應用到解決很多科學和醫學方面的問題！更多的應用等著你來探索和發現！

redis自學（47）服務端最佳化
2024-06-21
Redis服務端
端到端最佳化所有能力，位元組跳動提出強化學習LLM Agent框架AGILE
2024-09-30
強化學習框架
用Swift寫服務端 — Perfect框架
2018-09-29
Swift服務端框架
Go 語言，開源服務端程式碼自動生成框架 – EasyGoServer
2019-03-02
Go服務端框架Server
移動端 UI 自動化測試框架對比
2020-06-04
UI框架
人體解析端到端框架——CE2P
2019-02-21
框架
移動端UI框架
2018-10-23
UI框架
服務端渲染到前端渲染，再到“服務端渲染”
2019-02-16
服務端前端
Python定時任務前端專案本地自動打包遠端部署指令碼實現
2024-06-14
Python前端指令碼
終端斷開，任務不斷
2019-07-29
Cypress與TestCafe WebUI端到端測試框架簡介
2020-07-05
WebUI框架
端側版GPT-4o問世，面壁小鋼炮實現端到端、全模態實時對話
2025-01-16
GPT
端到端自動駕駛的開環評估和閉環評估
2024-10-30
自動駕駛
端到端自動駕駛、多模態場景大腦、全新3D互動：商湯絕影大模型即將亮相北京車展
2024-04-19
自動駕駛3D大模型
git 自動上傳程式碼到遠端倉庫
2021-04-02
Git
pytest+selenium+allure web端UI自動化框架設計
2024-03-14
WebUI框架
遠端觸發Jenkins的Pipeline任務
2022-11-25
Jenkins
YApi 服務端測試新增 globalCookie ，相容自動化觸發服務端測試功能
2020-02-25
API服務端Cookie
自動識別PC端、移動端，並跳轉
2020-10-24
任務異常自動告警
2024-05-18
老呂教程--02後端KOA2框架自動重啟編譯服務（nodemon）
2020-12-25
後端框架編譯
籃球組運動組任務（12.19到12.26任務)
2020-12-29
Tresorit推出端到端加密文件掃描應用
2019-03-13
加密
埃森哲：端到端客戶服務報告
2022-04-23
React服務端渲染+pm2自動化部署
2019-03-04
React服務端
macOS 自帶的ftp服務端&vnc客戶端
2020-09-27
MacFTP服務端VNC客戶端
助力自動駕駛企業完成向資料驅動的端到端開發流程轉型
2023-01-11
自動駕駛
Sense 對話語音 AI：自動電話呼叫加快招聘流程；靈初智慧釋出端到端強化學習具身模型，實現長程任務泛化
2024-12-31
AI強化學習模型
MapReduce——客戶端提交任務原始碼分析
2021-06-09
客戶端原始碼
RMAN自動備份任務新增
2021-03-05
從應用端到服務端，裝置指紋生成演算法大變革
2021-03-02
服務端演算法
自適應服務端渲染（服務端根據客戶端環境自適應地響應首屏）
2019-04-22
服務端客戶端
最受歡迎的 5 款 Node.js 端到端測試框架
2019-03-03
Node.js框架
最晚明年上半年落地L3：理想端到端自動駕駛，效能大幅提升
2024-08-06
自動駕駛
端到端拉通
2018-03-19
MQTT協議從服務端到客戶端詳解
2018-03-09
MQQT協議服務端客戶端
Laravel後臺作為客戶端，socket.io作為服務端，App或其他作為另一個客戶端
2020-07-20
Laravel客戶端服務端APP
13安卓手機端自動化框架常用的輔助命令
2024-09-28
安卓框架

全新TextGrad框架：用GPT-4o作引擎，自動最佳化端到端任務

相關文章