來自科技進步一等獎的肯定:騰訊破解萬億引數大模型訓練難題

机器之心發表於2024-03-27
中國電子學會 2023 科學技術獎授獎名單公佈,這次,我們發現了一個熟悉的身影 —— 騰訊 Angel 機器學習平臺。

在大模型飛速發展的當下,科學技術獎授予機器學習平臺類研究和應用專案,對於模型訓練平臺的價值和重要性給予了充分的肯定。

圖片

科學技術獎授予機器學習平臺類研究和應用專案,在大模型飛速發展的當下,對於模型訓練平臺的價值和重要性給予了充分的肯定。

深度學習的新一輪浪潮開始,各大公司都已經意識到機器學習平臺對於打造人工智慧技術的意義,谷歌、微軟、英偉達都有自己的機器學習平臺,為快速訓練人工智慧模型提供便捷支援。

2023 年開始,大模型的興起進一步提升了模型引數量,各大公司都推出引數規模達千億、萬億大小的模型,這些模型普遍採用深度神經網路模型,存在模型分散式訓練難和應用複雜帶來的模型設計難兩大核心痛點。

為什麼是 Angel 機器學習平臺?

詳解四大核心技術突破

由多名院士等權威專家組成的鑑定委員會認為, 騰訊 Angel 機器學習平臺技術複雜度高、研製難度大、創新性強,應用前景廣闊,整體技術達到國際先進水平,其中面向 all-to-all 通訊的高效快取排程與管理技術、自適應預取樣與圖結構搜尋技術達到國際領先水平。

圖片

騰訊 Angel 平臺架構圖

騰訊 Angel 機器學習平臺採用了分散式引數伺服器架構,這種架構的特點是,儲存模型引數和執行模型計算,這兩種任務在分別的伺服器上執行,增加更多伺服器就可以支援更大、計算需求更高的模型。

面對海量資料和超大規模模型訓練需求 ,騰訊 Angel 機器學習平臺在網路通訊與快取、模型儲存與排程、多模態模型與融合學習排序以及大規模圖模型與結構搜尋技術等核心環節取得技術突破。

圖片

為了提高訓練效率,TB 級機器學習模型通常採用分散式訓練方法,需要大量的引數和梯度同步,以 1.8T 模型千卡訓練為例,IO 通訊量達到 25TB, 耗時佔比 53%,此外,加上不同算力叢集間的異構網路環境,通訊網路延遲不一,這些都對模型訓練過程中的通訊開銷提出了較高的要求。騰訊 Angel 機器學習平臺基於騰訊雲星脈網路的高效通訊與快取排程管理技術,可有效解決 TB 級模型訓練通訊開銷大的問題,實現網路通訊耗時減少 80%,分散式訓練效能達業界主流方案的 2.5 倍。

圖片

現有的算力條件下,儘管模型達到 TB 級,而主流 GPU 的視訊記憶體仍只有 80G,引數儲存有瓶頸。針對 TB 級模型訓練引數儲存難的關鍵問題, 騰訊 Angel 機器學習平臺提出了視訊記憶體主存統一視角儲存管理機制,實現模型儲存容量比業界增加 1 倍,訓練效能是業界主流方案 2 倍。

圖片

大模型要向通用模型發展,離不開對多模態資料的處理支援,不同模態,例如文字、影像、影片等資料的對齊融合理解難度大。在多模態模型的訓練上, 騰訊 Angel 機器學習平臺針對廣告場景,提出多模態融合學習的全鏈路排序廣告推薦技術,助力廣告召回率提升 40% 以上。

圖片

另外,針對面向推薦系統的圖模型訓練, 騰訊 Angel 機器學習平臺設計了圖節點特徵自適應圖網結構搜尋技術,可自動輸出最優結構,解決了 TB 圖模型應用中 “圖資料探勘難” 的問題,實現模型訓練效能提升 28 倍,與業界比具有最優擴充套件性。

騰訊 Angel 機器學習平臺鍛造之路

騰訊混元大模型擴充套件到萬億規模

作為騰訊人工智慧技術的基礎平臺,騰訊 Angel 平臺誕生於 2015 年,支援 PS-Worker 分散式訓練, 以及十億引數 LDA 模型的訓練。

2017 年,Angel 框架在 Github 開源,向開發者開放,同時,技術上,Angel 解決了異構網路下的通訊問題,效能進一步提升。2019 年,在可擴充套件圖模型多模態理解技術取得突破,解決萬億節點可擴充套件圖模型問題。2021 年,提出 GPU 視訊記憶體統一視角儲存技術,解決大模型 引數儲存與效能問題。

騰訊通用人工智慧大模型騰訊混元的打造中,騰訊 Angel 機器學習平臺也發揮了重要作用。

2023 年 9 月,騰訊混元大模型正式對外亮相,預訓練語料超 2 萬億 tokens,具有強大的中文理解與創作能力、邏輯推理能力,以及可靠的任務執行能力。

面對建設騰訊混元大模型的需求,騰訊 Angel 機器學習平臺打造了自研的面向大模型訓練和推理的機器學習框架 Angel PTM 和 Angel HCF,支援單任務萬卡級別超大規模訓練和大規模推理服務部署。實現大模型訓練效率提升至主流開源框架的 2.6 倍,千億級大模型訓練可節省 50% 算力成本,升級後支援單任務萬卡級別超大規模訓練。在推理上,騰訊 Angel 機器學習平臺推理速度提高了 1.3 倍,在騰訊混元大模型文生圖的應用中,推理耗時從原本的 10 秒縮短至 3 至 4 秒。

此外,Angel 還提供了從模型研發到應用落地的一站式平臺,支援使用者透過 API 介面或精調等方式快速呼叫騰訊混元大模型能力,加速大模型應用構建,騰訊會議、騰訊新聞、騰訊影片等超過 400 個騰訊產品及場景均已接入騰訊混元內測。

騰訊混元透過採用混合專家模型 (MoE) 結構,已將模型擴充套件至萬億級引數規模,推動了效能提升和推理成本下降。作為通用模型,騰訊混元在中文表現上處於業界領先水平,尤其在文字生成、數理邏輯和多輪對話中效能表現卓越。目前,騰訊混元也在積極發展多模態模型,以進一步加強文生圖和文生影片能力。

騰訊大量的應用場景,為騰訊 Angel 機器學習平臺的落地提供了實驗地。除了騰訊混元大模型,騰訊 Angel 機器學習平臺也支援了騰訊廣告以及騰訊會議等產品,並透過騰訊雲服務多個行業和企業客戶,助力各行各業的數字化和智慧化發展。

騰訊廣告為例,採用騰訊 Angel 機器學習平分散式訓練最佳化、多模態理解圖資料探勘等創新技術,廣告業務場景中的多模態大模型訓練速度提升 5 倍,模型規模提升 10 倍,實現廣告召回率大幅提升。

相關文章