今年以來,中文 NLP 圈陸續出現了百億、千億甚至萬億引數的預訓練語言模型,煉大模型再次延續了「暴力美學」。但 QQ 瀏覽器搜尋團隊選擇構建十億級別引數量的「小」模型,提出的預訓練模型「摩天」登頂了 CLUE 總排行榜以及下游四個分榜。
收集了多型別、大量的資料並清洗出 1TB 高價值資料;
最佳化 Masked language model 遮蔽方案,消除預訓練階段和微調階段不一致的問題,引入了搜尋點曝任務;
自研一種相對位置編碼方案,更敏感捕捉短文字位置資訊契合搜尋場景;
兩階段訓練流程;
大規模 / 大 batch 預訓練模型訓練能力最佳化:Pre-LN、混合精度計算、梯度聚集、進一步最佳化 LAMB optimizer;
使用了有限資源,約 100 張 V100 顯示卡。