吳恩達團隊新作：多模態多樣本上下文學習，無需微調快速適應新任務

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本研究評估了先進多模態基礎模型在 10 個資料集上的多樣本上下文學習，揭示了持續的效能提升。批次查詢顯著降低了每個示例的延遲和推理成本而不犧牲效能。這些發現表明：利用大量演示示例可以快速適應新任務和新領域，而無需傳統的微調。

論文地址：https://arxiv.org/abs/2405.09798
程式碼地址：https://github.com/stanfordmlgroup/ManyICL

背景介紹

在近期的多模態基礎模型（Multimodal Foundation Model）研究中，上下文學習（In-Context Learning, ICL）已被證明是提高模型效能的有效方法之一。

然而，受限於基礎模型的上下文長度，尤其是對於需要大量視覺 token 來表示圖片的多模態基礎模型，已有的相關研究只侷限於在上下文中提供少量樣本。

令人激動的是，最新的技術進步大大增加了模型的上下文長度，這為探索使用更多示例進行上下文學習提供了可能性。

基於此，史丹佛吳恩達團隊的最新研究——ManyICL，主要評估了目前最先進的多模態基礎模型在從少樣本 (少於 100) 到多樣本（最高至 2000）上下文學習中的表現。透過對多個領域和任務的資料集進行測試，團隊驗證了多樣本上下文學習在提高模型效能方面的顯著效果，並探討了批次查詢對效能和成本及延遲的影響。

^{Many-shot ICL與零樣本、少樣本ICL的比較。}

方法概覽

本研究選擇了三種先進的多模態基礎模型：GPT-4o、GPT4 (V)-Turbo 和 Gemini 1.5 Pro。出於 GPT-4o 優越的表現，研究團隊在正文中著重討論 GPT-4o 和 Gemini 1.5 Pro， GPT4 (V)-Turbo 的相關內容請於附錄中檢視。

資料集方面，研究團隊在 10 個跨越不同領域（包括自然影像、醫學影像、遙感影像和分子影像等）和任務（包括多分類、多標籤分類和細粒度分類）的資料集上進行了廣泛的實驗。

^{基準資料集彙總。}

為了測試增加示例數量對模型效能的影響，研究團隊逐步增加了上下文中提供的示例數量，最高達到近 2000 個示例。同時，考慮到多樣本學習的高成本和高延遲，研究團隊還探索了批次處理查詢的影響。在這裡，批次查詢指的是在單次 API 呼叫中處理多個查詢。

實驗結果

多樣本上下文學習效能評估

總體表現：包含近 2000 個示例的多樣本上下文學習在所有資料集上均優於少樣本學習。隨著示例數量的增加，Gemini 1.5 Pro 模型的效能呈現出持續的對數線性提升，而 GPT-4o 的表現則較不穩定。

資料效率：研究測量了模型的上下文學習資料效率，即模型從示例中學習的速度。結果表明，Gemini 1.5 Pro 在絕大部分資料集上顯示出比 GPT-4o 更高的上下文學習資料效率，意味著它能夠更有效地從示例中學習。

批次查詢的影響

總體表現：在選擇最優示例集大小下的零樣本和多樣本情境中，將多個查詢合併為一次請求，不會降低效能。值得注意的是，在零樣本場景中，單個查詢在許多資料集上表現較差。相比之下，批次查詢甚至可以提高效能。

零樣本場景下的效能提升：對於某些資料集（如 UCMerced），批次查詢在零樣本場景下顯著提高了效能。研究團隊分析認為，這主要歸因於領域校準 (domain calibration)、類別校準 (class calibration) 以及自我學習 (self-ICL)。

成本和延遲分析

多樣本上下文學習雖然在推理時需要處理更長的輸入上下文，但透過批次查詢可以顯著降低每個示例的延遲和推理成本。例如，在 HAM10000 資料集中，使用 Gemini 1.5 Pro 模型進行 350 個示例的批次查詢，延遲從 17.3 秒降至 0.54 秒，成本從每個示例 0.842 美元降至 0.0877 美元。

結論

研究結果表明，多樣本上下文學習能夠顯著提高多模態基礎模型的表現，尤其是 Gemini 1.5 Pro 模型在多個資料集上表現出持續的效能提升，使其能夠更有效地適應新任務和新領域，而無需傳統的微調。

其次，批次處理查詢可以在相似甚至更好的模型表現的同時，降低推理成本和延遲，顯示出在實際應用中的巨大潛力。

總的來說，吳恩達團隊的這項研究為多模態基礎模型的應用開闢了新的路徑，特別是在快速適應新任務和領域方面。

相關文章