AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本研究評估了先進多模態基礎模型在 10 個資料集上的多樣本上下文學習,揭示了持續的效能提升。批次查詢顯著降低了每個示例的延遲和推理成本而不犧牲效能。這些發現表明:利用大量演示示例可以快速適應新任務和新領域,而無需傳統的微調。- 論文地址:https://arxiv.org/abs/2405.09798
- 程式碼地址:https://github.com/stanfordmlgroup/ManyICL
在近期的多模態基礎模型(Multimodal Foundation Model)研究中,上下文學習(In-Context Learning, ICL)已被證明是提高模型效能的有效方法之一。然而,受限於基礎模型的上下文長度,尤其是對於需要大量視覺 token 來表示圖片的多模態基礎模型,已有的相關研究只侷限於在上下文中提供少量樣本。令人激動的是,最新的技術進步大大增加了模型的上下文長度,這為探索使用更多示例進行上下文學習提供了可能性。基於此,史丹佛吳恩達團隊的最新研究——ManyICL,主要評估了目前最先進的多模態基礎模型在從少樣本 (少於 100) 到多樣本(最高至 2000)上下文學習中的表現。透過對多個領域和任務的資料集進行測試,團隊驗證了多樣本上下文學習在提高模型效能方面的顯著效果,並探討了批次查詢對效能和成本及延遲的影響。 Many-shot ICL與零樣本、少樣本ICL的比較。本研究選擇了三種先進的多模態基礎模型:GPT-4o、GPT4 (V)-Turbo 和 Gemini 1.5 Pro。出於 GPT-4o 優越的表現,研究團隊在正文中著重討論 GPT-4o 和 Gemini 1.5 Pro, GPT4 (V)-Turbo 的相關內容請於附錄中檢視。資料集方面,研究團隊在 10 個跨越不同領域(包括自然影像、醫學影像、遙感影像和分子影像等)和任務(包括多分類、多標籤分類和細粒度分類)的資料集上進行了廣泛的實驗。
基準資料集彙總。
為了測試增加示例數量對模型效能的影響,研究團隊逐步增加了上下文中提供的示例數量,最高達到近 2000 個示例。同時,考慮到多樣本學習的高成本和高延遲,研究團隊還探索了批次處理查詢的影響。在這裡,批次查詢指的是在單次 API 呼叫中處理多個查詢。總體表現:包含近 2000 個示例的多樣本上下文學習在所有資料集上均優於少樣本學習。隨著示例數量的增加,Gemini 1.5 Pro 模型的效能呈現出持續的對數線性提升,而 GPT-4o 的表現則較不穩定。資料效率:研究測量了模型的上下文學習資料效率,即模型從示例中學習的速度。結果表明,Gemini 1.5 Pro 在絕大部分資料集上顯示出比 GPT-4o 更高的上下文學習資料效率,意味著它能夠更有效地從示例中學習。總體表現:在選擇最優示例集大小下的零樣本和多樣本情境中,將多個查詢合併為一次請求,不會降低效能。值得注意的是,在零樣本場景中,單個查詢在許多資料集上表現較差。相比之下,批次查詢甚至可以提高效能。零樣本場景下的效能提升:對於某些資料集(如 UCMerced),批次查詢在零樣本場景下顯著提高了效能。研究團隊分析認為,這主要歸因於領域校準 (domain calibration)、類別校準 (class calibration) 以及自我學習 (self-ICL)。多樣本上下文學習雖然在推理時需要處理更長的輸入上下文,但透過批次查詢可以顯著降低每個示例的延遲和推理成本。例如,在 HAM10000 資料集中,使用 Gemini 1.5 Pro 模型進行 350 個示例的批次查詢,延遲從 17.3 秒降至 0.54 秒,成本從每個示例 0.842 美元降至 0.0877 美元。研究結果表明,多樣本上下文學習能夠顯著提高多模態基礎模型的表現,尤其是 Gemini 1.5 Pro 模型在多個資料集上表現出持續的效能提升,使其能夠更有效地適應新任務和新領域,而無需傳統的微調。其次,批次處理查詢可以在相似甚至更好的模型表現的同時,降低推理成本和延遲,顯示出在實際應用中的巨大潛力。總的來說,吳恩達團隊的這項研究為多模態基礎模型的應用開闢了新的路徑,特別是在快速適應新任務和領域方面。