伸縮架構原理也適用於大模型

banq發表於2024-04-22


谷歌的Griffin論文完美地展示了縮放定律。由於引數擴充套件了 7 倍,任務效能提高了大約 10%。全部都使用相同的 3000 億代幣資料進行訓練。當您跨引數擴充套件時,模型會獲得更高的樣本效率或更好的推斷。

重點:雖然模型增長了 7 倍,效能只提升了 10%
但是:讓事情從不可能變成可能:有些人認為,因此擴充套件是一個死衚衕,OpenAI 和 GPT 是過去 5 年中擴充套件的最大支持者,並且它們確實取得了巨大的成功。當然,你還必須改進其他方面,但是當你想將這些方面推向極限時,擴充套件就會再次出現。

機器學習從根本上講是讓計算機透過示例進行學習:這意味著更少的直接人類知識和更多的利用計算和資料。

這實際上告訴我們:

  • 我們的訓練和推理過程存在架構限制
  • 如果您告訴我更多的資料並不能產生更好的結果,那麼您就沒有正確使用資料。

相關文章