微調大模型提示時:
- 是在提示中給出相關的例子?
- 應該給出多少個最佳表現的例子?
- 如果提供更多,是否會損害效能?
- 示例的前後順序重要嗎?
這篇Deepmind的新論文回答了所有這些問題,
主要要點:
- 從提供極少量(1-5 個)示例(少量示例的文字學習(ICL))到提供大量(100-1000 個)示例(多次示例的文字學習(ICL)),效能躍升很大 - 提示中的示例越多,任務越難!
- 建議使用合成生成的示例(而非人類標註的示例),結果發現效果很好
- 建議在示例中只提供問題而不提供答案,結果發現效果也很好!
- 證明了多鏡頭 ICL 可以克服預訓練偏差,與監督微調的效果相當,並能學習非 NLP 預測任務。
說人話:
- 只問大模型問題,不提供答案,不用自己思維去誤導它
- 儘可能多地在提示中提供問題的示例
- 使用大模型自己合成的例項更好
精彩細節
- 在許多工中,完全監督/指令微調僅略勝於多樣本 ICL
- 他們主要測試 Gemini 1.5,但也嘗試了 GPT4 和 Claude 3.5,並表明不同的 LLM 在使用多樣本 ICL 時具有不同程度的成功——這不是一個與模型無關的技巧
- 他們表明,如果你在提示中提供足夠多的示例,它可以適應未見過的非語言任務,甚至可以適應可能與 LLM 的訓練資料不一致的領域
- 令人驚訝的是,提示中示例的順序也會影響多樣本效能——看看 DSPy 等最佳化系統如何幫助解決這個問題會很有趣
- 在提示中新增更多示例(然後進行最佳化)有時也會降低某些任務的效能 -奇怪的發現- DSPy 也有機會在這裡發揮作用
- 與使用帶有解決方案的問題相比,使用多次 ICL 僅使用問題時可實現相當或更優的效能 - 這表明使用多次 ICL 提供解決方案可能只是多餘的
- 許多 Shot ICL 還顯示出透過情境學習(數學任務等)解決分佈外一般問題的能力的提高。
- 在預訓練期間灌輸給模型的偏見也可以透過多次 ICL 來克服 - 少量的鏡頭會導致模型產生偏見,但隨著任務學習在多次鏡頭機制中生效,有了足夠多的示例,這種偏見最終會消失。