原來早在 2017 年,百度就進行過 Scaling Law 的相關研究,並且透過實證研究驗證了深度學習模型的泛化誤差和模型大小隨著訓練集規模的增長而呈現出可預測的冪律 scaling 關係。只是,他們當時用的是 LSTM,而非 Transformer,也沒有將相關發現命名為「Scaling Law」。
論文標題:Scaling Laws for Neural Language Models
論文連結:https://arxiv.org/pdf/2001.08361
原來早在 2017 年,百度就進行過 Scaling Law 的相關研究,並且透過實證研究驗證了深度學習模型的泛化誤差和模型大小隨著訓練集規模的增長而呈現出可預測的冪律 scaling 關係。只是,他們當時用的是 LSTM,而非 Transformer,也沒有將相關發現命名為「Scaling Law」。
論文標題:Scaling Laws for Neural Language Models
論文連結:https://arxiv.org/pdf/2001.08361