近日,中國電信人工智慧研究院(TeleAI)成功完成國內首個基於全國產化萬卡叢集訓練的萬億引數大模型(萬卡萬參),並正式對外開源首個基於全國產化萬卡叢集和國產深度學習框架訓練的千億引數大模型——星辰語義大模型 TeleChat2-115B。
這是由中國電信集團 CTO、首席科學家、中國電信人工智慧研究院(TeleAI)院長李學龍教授帶領團隊完成的又一項里程碑式的重要科研成果,標誌著國產大模型訓練真正實現全國產化替代,正式進入全國產自主創新、安全可控的新階段。
TeleChat2-115B 基於中國電信自研的天翼雲“息壤一體化智算服務平臺”和人工智慧公司“星海 AI 平臺”訓練完成,在保證訓練精度的前提下利用多種最佳化手段提升模型訓練效率和穩定性,實現了 GPU 同等算力計算效率的 93% 以上,同時模型有效訓練時長佔比達到 98% 以上。
TeleChat-52B在OpenCampass推理榜單排名第一
在今年5月的 OpenCampass 測試榜單中,TeleChat 系列模型的邏輯推理能力名列開源大模型榜單第一。作為新一代版本,TeleChat2-115B 在9月最新公佈的 C-Eval 評測 Open Access 模型綜合榜單中,以 86.9 分的成績排名第一。其通用能力較 TeleChat 系列模型提升近 30%,特別是在工具使用、邏輯推理、數學計算、程式碼生成和長文寫作等方面能力均有大幅提升。
TeleChat2-115B在C-Eval的Open Access模型綜合榜單排名第一
TeleChat2在模型訓練與資料構建方面的研究經驗
針對超大引數模型訓練,TeleAI 採用了大量小模型進行 Scaling,進而驗證不同模型結構的有效性。同時,在資料配比方面,基於小模型實驗結果反饋,採用迴歸預測模型,得到較優資料配比。
基於以上策略,能夠大幅提升大引數模型最優方案的搜尋效率。另外,在後訓練退火階段,TeleAI 透過大量實驗驗證探索到了退火最佳資料量和最佳配比,以及學習率變化方式等,進一步提升了模型訓練效果。
在 Post-Training(後訓練)方面,TeleAI 首先針對數學、程式碼和邏輯推理等內容合成了大量問答資料,用於 SFT(監督式微調)第一階段模型訓練。其次採用迭代式更新策略,使用模型對 Prompt(提示詞)資料進行指令複雜性提升與多樣性擴充,透過模型合成和人工標註提升答案質量,並利用拒絕取樣獲取優質 SFT 資料及 RM(獎勵模型)代表性資料,用於 SFT 訓練和 DPO(偏好對齊)訓練,以及模型效果迭代。
TeleAI自研語義大模型獲多項權威賽事第一名
連獲中國計算語言學大會(CCL2024)挑戰賽兩項冠軍:TeleAI 在 CCL2024 大會上獲得中文空間語義理解評測和古文歷史事件型別抽取評測兩項第一名。其中,在古文歷史事件型別抽取評測任務挑戰賽中,更是在所有子任務均取得第一名的情況下獲得了綜合排名第一。
NLPCC2024 中文議論文挖掘(Shared Task5)挑戰賽冠軍:TeleAI語義團隊基於上下文學習策略對大模型進行最佳化,透過利用從粗粒度到細粒度的 Prompt 設計、多模型的投票機制等手段,進一步提高了模型準確率和魯棒性,最終以領先第二名將近 3 分的絕對優勢排名第一。
開源共享,引領創新
TeleChat2-115B 的開源標誌著大模型國產化邁進了又一個新徵程。作為最早佈局並首先開源大模型的央企機構,TeleAI 積極透過開源推動大模型技術的不斷進步,並持續推動和引領技術創新向產業落地快速躍遷。
開源地址:
- GitHub:https://github.com/Tele-AI/TeleChat2
- Gitee:https://gitee.com/Tele-AI/tele-chat2
- Modescope:https://modelscope.cn/models/TeleAI/TeleChat2-115B
- Modelers:https://modelers.cn/models/TeleAI/TeleChat2-115B