想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。
首先是詞彙量大,Gemma 詞彙量達到 256000 個單詞,相比之下,Llama 的詞彙量為 32000 個單詞; 其次是訓練資料集達 6 萬億 token,作為對比,Llama 僅接受了其中三分之一的訓練。
歸一化位置。谷歌對每個 transformer 子層的輸入和輸出進行歸一化,這與單獨歸一化輸入或輸出的標準做法不同。谷歌使用 RMSNorm 作為歸一化層。
想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。
歸一化位置。谷歌對每個 transformer 子層的輸入和輸出進行歸一化,這與單獨歸一化輸入或輸出的標準做法不同。谷歌使用 RMSNorm 作為歸一化層。