大模型步入「推理Scaling」時代,SambaNova如何挑戰英偉達的霸主地位?

机器之心發表於2024-10-18
OpenAI o1 的釋出,再次給 AI 領域帶來了一場地震。

o1 能像人類一樣「思考」複雜問題,擁有優秀的通用推理能力。在未經專門訓練的情況下,o1 能夠直接拿下數學奧賽金牌,甚至能在博士級別的科學問答環節上超越人類專家。

在效能躍升之外,更重要的是,它揭示了大模型進化正規化的轉變:透過更多的強化學習(訓練時計算)和更多的推理(Test-Time 計算),模型可以獲得更強大的效能。

這又一次讓我們想起 Richard Sutton 在《The Bitter Lesson》中所說的,利用計算能力的一般方法最終是最有效的方法。這類方法會隨著算力的增加而繼續擴充套件,搜尋和學習似乎正是兩種以此方式隨意擴充套件的方法。連山姆・奧特曼也坦言,在未來的一段時間裡,新正規化進化的曲線會非常陡峭。

從「訓練 Scaling」到「推理 Scaling」的正規化轉變,也引發了關於計算資源分配和硬體選擇的重新思考。
圖片
領域內的研究者和從業者認識到,一方面,更多的計算資源應該投入到推理階段,另一方面,最佳化硬體配置以提升大模型推理的效率將是下一階段的攻關重點。而大模型要進行推理 Scaling,實際上比訓練 Scaling 對晶片並行處理能力的要求更高。

GPU 最初設計用於圖形渲染,由於其並行處理能力,過去數年一直是以海量資料集訓練大模型的熱門選擇。雖然 GPU 非常適合實現神經網路的訓練工作,但在全新的正規化下,由於其在延遲、功耗等方面表現不佳, 並不是進行大規模推理的最好選擇。

在 GPU 之外,什麼是大模型推理的更好選擇?現在的 AI 晶片有各種流派:ASIC、FPGA、DSP、Neuromorphic Chip,以及大量 DSA (Domain-specific architectures)晶片。其中,以 SambaNova RDU(Reconfigurable Dataflow Unit)為代表的動態可重構資料流(Dataflow)架構的晶片,能夠透過並行處理和高效資料移動來最佳化效能和效率,近年越來越被認為是一個重要的發展方向。

數倍於 GPU 推理效能
來自 SambaNova 最新一代 RDU SN40L

近日的晶片盛會 Hot Chips 上,圍繞大模型的議題比以往任何一屆都更加活躍。SambaNova 的最新一代 RDU 產品 SN40L 也在這場大會上引發持續討論。大家也充分了解到,Sambanova 如何實現大模型的快速推理以及提供 GPU 之外的更優方案。

我們知道,大模型在推理時會逐步生成輸出序列的 Token,每生成每一個 token 都會需要把模型的引數從 HBM(High Bandwidth Memory)搬運到片上進行計算。對於利用 HBM 來推理的晶片來說,HBM 的利用率是推理速度的關鍵,越快從記憶體中訪問資料,就越能縮短處理時間。

SambaNova 的 RDU 既有 GPU 10 倍以上的片上分佈 SRAM,也有適用於需要快速資料傳輸的大規模計算任務的 HBM。其架構可以自動做到極致的運算元融合,達到 90% 以上的 HBM 利用率,使得 RDU 對 GPU 有了 2-4 倍的效能優勢。

當前的 AI 推理平臺中,SambaNova 是唯一能在 Llama 3.1 405B 上提供每秒超過 100 個 Token 推理速度的平臺。
圖片
如下圖所示,每個框都是一個運算元。一般來說,多個運算元會同時執行,並將資料儲存在晶片上以重複使用。但在 RDU 中,整個解碼器是一個 Kernel 呼叫。
圖片
這意味著呼叫開銷會顯著減少,晶片對資料進行有效工作的時間則增加了。
圖片
另外一方面,極致的運算元融合使 RDU 能夠達到類似 GPU 的批處理能力。GPU 有很好的批處理能力(比如從 BS1 到 BS16),可將吞吐量提高 12 到 15 倍。比如在上圖中,當 decoder0 在進行批處理運算時,可以同時從 HBM 讀取 decoder1 的引數。
圖片
SambaNova 的研究者觀察到,SN40L 在 Llama 3.1 70B 上可以實現較好的吞吐量 Scaling。

為什麼業內普遍看好資料流架構?

SN40L 讓我們重新認識了 SambaNova RDU 相對於主流 GPU 的速度優勢,而資料流架構的價值也在被越來越多的從業者重新發現。

與 GPU 本質上不同的是,資料流架構透過資料流動來驅動計算過程,而非常規指令流動。在該架構中,程式被表示為一個 Dataflow Graph,其中節點代表計算操作,邊代表資料依賴關係。每個節點在其所有輸入資料準備好後立即執行,並將結果傳遞給下游節點。這種架構天然支援並行處理,多個獨立的計算操作可以同時執行,從而顯著提高了計算效能。

從下圖可以看到,SambaNova RDU 的片上空間資料流可以做自動的運算元融合 (kernel fusion),與 GPU 的傳統 kernel-by-kernel 執行相比,明顯消除了大量的記憶體流量和開銷。
圖片圖片
近年來,GPU 廠商明顯意識到非 Dataflow 架構的短板,併為 GPU 部分引入一些 Dataflow 的功能。例如,從 H100 開始,GPU 開始加入分散式共享記憶體(Distributed Shared Memory) ,也加入了新的張量記憶體加速器 (Tensor Memory Accelerator) 單元,使其某種程度上模仿了片上空間流水線執行的「正規化」。

但這種程度的改動遠遠不夠,GPU 追趕的速度恐怕已經跟不上 AI 領域推理需求的暴漲。畢竟 GPU 最初不是專門為 AI 而設計的,廠商們很難在不影響主營業務的情況下對基本架構做完全的重新設計,即使增加了上述的「修補」工作,也無法完全採用高效的資料流架構,這從根本上限制了 GPU 推理的提速。

當前的幾家主流 AI 晶片 Startup,都選擇了資料流架構。其中來自 SambaNova 的 RDU 展現出了獨特優勢,也被視為 GPU 的最有力競爭者 。與英偉達相比,Sambanova 最新 Llama 3.1 模型上生成 token 的效能快了 10 倍以上,並且透過 cloud.sambanova.ai 公開供開發人員使用。
圖片
RDU 能夠實現更快的推理速率,更利於大模型的部署。連人工智慧專家吳恩達也驚歎 SambaNova 的推理速率:
圖片
從最基礎的成本上說,由於 Sambanova 的資料流架構 RDU 不僅擁有大的片上 SRAM,同時擁有 HBM 層面的優勢,相比於其他的幾個單純依靠片上 SRAM 的資料流企業,使用者需要支援大型語言模型的基礎設施更少。例如,想在 Llama 70B 上推理,對於有些 AI 晶片來說需要五百多個晶片,或者相當於三百多個晶片的 4 個 wafer ,而 SambaNova 只需要 擁有 16 個晶片的 1 個機架。(https://sambanova.ai/blog/sn40l-chip-best-inference-solution)
圖片
更進一步說,RDU 所帶來推理速度提升的意義不只是體現在效率上,更能體現在質量上,也體現對 AGI 探索的加速上。

基於 OpenAI o1 帶來的推理 Scaling Law 的啟發,人們意識到,在推理端,更多的算力同樣會帶來更強的智慧。因為在同一時間單位內,推理速度越快,就能實現越複雜的推理,就能解鎖越多複雜任務,大模型應用的天花板就越高。

這意味著,如果我們想更快實現 AGI,我們本質上最需要建設足夠的基礎設施並持續降低計算成本。與此同時,計算資源還要更多地向推理側增加。但在目前的條件下,算力往往是大模型廠商們擴充技術上限的頭道難關,即使對於實力雄厚的玩家們也一樣。

OpenAI 在釋出 o1 時似乎就遇到了這個問題。機器學習研究員 Nathan Lambert 在部落格《逆向工程 OpenAI 的 o1》中寫到,在已釋出的基準測試分數和曲線圖中,o1 preview 並非是能力最強的,但 OpenAI 並未立即釋出最強版本的 o1 (詳情見下圖),原因是「最強配置」過於昂貴,他們沒有對應的基礎設施支援大規模的部署。
圖片
但推理算力需求並非天塹不可跨越。在 o1 釋出後不久,SambaNova 便在 Hugging Face 上釋出了 Llama 3.1 Instruct-O1 演示 。這個專案由 SambaNova 的 SN40L RDU 提供算力支援,使用者可與 LLama 3.1 405B-instruct 模型進行實時對話,體驗風馳電掣般類 o1 的推理過程。

專案地址:https://huggingface.co/spaces/sambanovasystems/Llama3.1-Instruct-O1

這意味著,在強大算力的支援下,開源大模型推理能力會不斷提升,復現完整 o1 甚至觸達更高階的智慧是指日可待的。

一個新的時代正在開啟,當大模型 Scaling Law 的重心從預訓練向後訓練和推理側轉移,廠商們在算力層面的分配與設計也會更深刻影響大模型領域的競爭格局。而對於 SambaNova 或其他以提供算力和計算基礎設施見長的公司來說,接下來會迎來前所未有的機遇。

英偉達的挑戰者

在 AI 晶片賽道的諸多初創公司中,SambaNova 是目前估值最高的一家獨角獸。

SambaNova 成立於 2017 年,擁有三位資深的聯合創始人:Rodrigo Liang、Kunle Olukotun、Christopher Ré。CEO Rodrigo Liang 畢業於史丹佛大學,在創立 SambaNova 之前,Rodrigo 領導了甲骨文和 Sun Microsystems 的工程團隊,負責 SPARC 處理器和 ASIC 的開發。Kunle Olukotun 和 Christopher Ré 都來自史丹佛大學。
圖片
從左到右分別為 Kunle Olukotun、Rodrigo Liang、Christopher Ré。

此外,被譽為「晶片風險投資教父」的陳立武,自創立之初便作為創始投資人和董事會主席加入 SambaNova,並於 2024 年 5 月出任執行主席,以加速和擴大公司的發展。自 1987 年創立華登國際(Walden International)以來,陳立武投資了許多公司(包括 SambaNova),在推動半導體創新和發展方面發揮了重要作用。
圖片

在深度學習引發的第三次人工智慧浪潮中,算力對人工智慧發展的決定作用已成共識。一系列極具影響力的 AI 研究,如 AlexNet、ResNet 和 Transformer 都是在 GPU 上實現和評估的,這也讓英偉達十年來始終處於 AI 硬體市場的主導地位。

不過,時代可能真要變了。正如 Transformer 會迎來新的挑戰者,比如 Mamba;英偉達和 GPU 也會迎來下一階段的強勁競爭者,比如 SambaNova 的 RDU。

o1 釋出之後,AI 推理市場正處於爆炸式增長的新起點。從 SambaNova 的 RDU 開始,人工智慧領域可能正在翻開全新的一頁。

相關文章