華為盤古大模型5.0技術解密:更多模態,複雜推理

机器之心發表於2024-06-24

現在,AI 大模型可以真正與物理世界結合了。

該大模型體系分為 10 億級引數的 Pangu E 端側模型,百億級引數的 Pangu P,千億級的 Pangu U,以及萬億級的 Pangu S 版本,在全系列、多模態、強思維三個方面實現了升級。

盤古 5.0 可以與物理世界結合,理解包括文字、圖片、影片、雷達、紅外、遙感等多種模態的資訊。它已在高鐵故障檢測等工業領域、具身智慧等技術探索領域落地,因而受到了人們的關注。

圖片

隨著鴻蒙 HarmonyOS NEXT Beta 版本的釋出,小藝也升級成為智慧體,面向全場景裝置提供語音對話、圖文識別、服務建議、裝置智慧能力和裝置互聯管理功能。依託昇騰的算力和盤古大模型,HarmonyOS NEXT 擁有了系統級 AI 能力。

在大會主 Keynote 環節上,諾亞方舟實驗室主任姚駿對盤古大模型 5.0 背後的技術進行了詳解。

圖片

在過去的一年裡,華為對盤古 3.0 進行了全面的升級,如今的盤古 5.0 具備了更豐富的多模態和更強的思維能力。基於華為雲 AI 算力平臺,盤古 5.0 提高了訓練效率。在新模型的介紹中,華為主要從資料、引數和算力三個方面介紹了大模型的訓練過程。

資料合成

首先是資料方面的工作,在 5.0 版模型的訓練中,工程團隊從追求資料量和提高資料清洗質量的資料工程,向科學使用資料的思路進行了演進。新的目的是提升資料的利用率,並且用更優質的資料來啟用模型中更多的能力。

華為著重介紹了兩個關鍵技術。

圖片

首先是資料合成,現在,業界大模型訓練資料的規模已經從萬億級 tokens 邁入十萬億 tokens,到達這個量級以後,業界公開的高質量資料的增長就難以跟上模型體量增長的速度了。

華為認為在未來,合成資料會在更大規模的模型訓練中佔有一席之地,從而彌補高質量自然資料增長不足的空缺。從盤古 3.0 時代的 3T Tokens 的資料,到盤古 5.0 時,資料的容量已達到 10T Tokens,其中合成資料佔比超過了 30%。在其中,華為探索了優質的、面向高階能力的資料合成方法。簡單來說,就是以弱模型輔助強模型的 weak2strong 方法,迭代式的合成高質量的資料,保證合成資料有不弱於真實資料的完整性、相關性和知識性。

華為提供的能力圖中可以看到,合成資料的質量從各個維度都略強於真實資料。

華為提出的 weak2strong 可以進一步加強合成資料中特定的資料,例如自然資料中偏少的長序列、複雜知識推理等的資料,進一步透過這些資料來加強模型的特定能力。在訓練的過程中,華為使用了大量合成的長序列資料,提高了模型在大海撈針長序列測試中的表現約 20%。

華為也展示了資料方面的課程學習,利用相對較小的模型對不同資料進行快速的 AI 評估,區分不同資料類別在學習過程中的難易程度。進一步根據階梯式課程學習的原理,先讓大模型學習相對來說基礎的課程,再逐漸的加大高難資料的比例,模型能以更加類人的方式從易到難地學習知識,實現更加可控、可預期的能力湧現。

模型架構升級

在盤古 5.0 中,模型架構也獲得了升級,華為提出了昇騰親和的 Transformer 架構 - 創新的 π 新架構。

如下圖左所示,原始的 Transformer 架構和其它的深度模型一樣,也存在一定的特徵坍塌問題。華為研究人員透過理論分析發現,Transformer 中的自注意力模組(即 Attention 模組)會進一步激化資料的特徵消失。

圖片

利用計算視覺和 Transformer 結合的例子來演示這個特徵問題,左邊是一張鯊魚的圖,如果我們用原始的 transformer 架構來處理,模型一深就會帶來特徵的完全坍塌,基本無法還原輸入影像,看起來就是中間黑乎乎的一塊。業界因此為原始的 Transformer 增加一條殘差連線,這樣就能略微的緩解特徵坍塌問題,右邊的圖中可以模糊地看到還原影像中有一點鯊魚的影子,但是這個鯊魚的特徵整體仍然不太明顯。

在新的盤古 π 架構中,華為諾亞、北京大學等研究人員進一步提出了增廣殘差連線的方法。透過引入非線性的額外殘差,更進一步的加大來自不同 Token 的特徵,使資料的特徵的多樣性得以在深度的 Transformer 中得到維持,進而大幅提升模型的精度。圖片

論文連結:http://dx.doi.org/10.13140/RG.2.2.34314.64966

PanGu-π 的工作,已經被國際機器學習頂會 NeurIPS 2023 錄用。

在上圖下方的圖實驗結果中,還原的鯊魚影像效果更好了,可知模型對資料的表徵和學習能力得到了大幅的加強。

另一方面,Transformer 包含 2 個關鍵模組,FFN 和自注意力模組。華為表示,其自研的昇騰晶片擅長於處理 Transformer 中的 FFN 模組,而對自注意力模組(Attention 模組)的效率不高。因此在 π 架構中,華為改造了模型中 FFN 模組中的啟用函式,用一種新的級數啟用函式的方式來代替。這種新的方式增加了模型的非線性度,增加了 FFN 的計算量,但是也可以幫助我們在精度不變的情況下減少自注意力模組的大小。經過此種最佳化,大模型在昇騰晶片上推理速度也由此提升了 25%。

大叢集訓練

華為進一步介紹了透過大叢集訓練盤古 5.0 的情況。

從千卡叢集到大叢集,主要挑戰來自兩方面:首先,訓練千億、萬億模型需要同時進行資料並行、模型並行和流水線並行,期間計算單元在流水線並行的等待時間稱為 Bubble。千卡叢集的 bubble 通常在 10% 左右,而大叢集的 Bubble 就到了 30,大大影響了叢集算力利用率。另外,大叢集中,並行通訊在叢集間會有大量的路由衝突要解決,導致叢集利用率線性度只有 80% 左右。

圖片

為了解決這個問題,技術人員首先將大塊計算和通訊按照數學上的等價,切分成多個小塊計算和通訊副本。系統會編排多個副本間計算通訊的執行順序,小塊的計算和通訊更容易被隱藏在計算中。在這其中,編排上還有 NP 難問題的自動尋優最佳化、正反向流水交織等關鍵技術。此外,華為還最佳化了大叢集排程與通訊,透過 rank table 編排演算法,將大流量放到節點內或同一機櫃級路由器下,避免跨路由器衝突,同時對源埠進行動態編排,實現叢集通訊路徑完全零衝突。

基於以上方法,華為可以有效隱藏 70% 以上的通訊,bubble 從 30% 降低到 10%,有效實現了大叢集的近線性加速比。整體上,叢集的訓練 MFU(模型計算算力利用率)相比 256 卡的 60%,大上只降低了 10%,可以達到 50% 左右,這些最佳化大幅提升了訓練效率。

姚駿表示,這些自動並行方案已整合到了華為 AI 框架中,成為了訓練全棧解決方案的一部分。

盤古大模型 5.0 的能力提升

盤古 5.0 擴充套件了多模態能力。

一直以來,多個模態的高效對齊是訓練多模態大模型的一大挑戰。其中,視覺編碼器是多模態大模型處理輸入的第一步,用於將不同類別、大小的影像輸入到同一個表徵空間,相當於語言模型的 Tokenizer 。因為領域的不同,傳統處理影像,影片,文字和圖表時,需要用各自的獨立的編碼器各自接入多模態大模型,這造成了模型容量浪費和計算冗餘。

華為提出統一視覺編碼,將不同的編碼器能力蒸餾到一個統一視覺編碼器中,可以大大提升編碼效率。和同引數量業界 SOTA 模型相比,由於利用了不同領域之間內的共通知識,新的編碼器在自然影像能力基本持平,文件理解能力上有顯著提升。這種方案現在也成為了業界的主流編碼正規化。

圖片

盤古 5.0 在介紹多模態能力時重點展示了兩個關鍵技術。第一個是統一的視覺編碼器,它改變了以前業界在視覺的多個領域,如 OCR、自然影像、影片、文字等,都有不同的獨立編碼方案的困境。把這些編碼器都蒸餾到一個視覺編碼器,現在已經成為了業界主流的編解碼方案,也提升了模型的表徵能力和精度。

另一個關鍵技術是動態解析度。人看世界是有不同解析度的,但是一個 AI 模型的輸入一般是固定的,很難兼顧。華為提出尺度泛化的訓練正規化,如下圖右邊部分所示。首先,使用低解析度圖片和簡單任務訓練基礎感知能力,然後使用中高解析度訓練 OCR 和圖表理解等細粒度感知能力,第三階段擴充套件到更高的解析度和更多的任務型別,最後重點突破模型的高階推理能力。

這也是一種資料課程學習的方式,從易到難學習多模態的資訊。這種方式動態的遞增的方式幫助盤古 5.0 在動態解析度的表徵上超過了業界同等模型的能力,並有效的提升了新模型在下游多模態任務的能力,實現了 50% 的提升。

圖片

盤古大模型的另一個關鍵能力提升在於強思維,即複雜推理能力。

當前,在單步任務和文字記憶類任務,例如知識問答和考試上,大模型已經展現出超過人類的卓越表現。而在多步推理和複雜任務的處理上,AI 還沒有達到人類的平均水平,這一方面涉及到的任務包括程式碼生成、數學運算、邏輯推理等。這體現了人類在知識的抽象和推理上的能力難以替代。

華為的研究過程中,前一種能力被稱作記憶型能力,適合於大模型用一步的快速思考進行回答。後一種複雜推理,人類處理時一般也需要步步推導,跳過中間過程的快速回答不適用於這種問題,所以大模型也需要像人一樣,在這類問題上把快思考變成慢思考,一步一步分解和完成對複雜問題的處理。

從這點出發,華為提出了基於多步生成和策略搜尋的 MindStar 方法。首先把複雜推理任務分解成多個子問題,每個子問題都會生成多個候選方案,透過搜尋和過程反饋的獎勵模型,來選擇最優多步回答的路徑。這樣既兼顧了人類一步一步思考的形式,也兼顧了機器更擅長的策略搜尋的形式。

華為自建的難例評測集中,MindStar 方法使模型的平均能力提升了 30 分,使用了 MindStar 的百億模型達到業界主流千億模型的推理能力,這相當於使用慢思考能帶來 10 倍以上的引數量的加成。

把 MindStar 這類強思維方法運用到更大尺度的模型上,AI 或許就能逐步在複雜推理上實現接近人類,甚至超越人的能力。

相關文章