生成式 AI 推理價效比是 GPU 的 140 倍。
大模型時代,全球都缺算力,買鏟子的英偉達市值被炒上了天。
現在,終於有一家公司帶著自己的 AI 晶片來叫板了。
今天凌晨,科技圈迎來了一個重要新聞。美國晶片創業公司 Etched 推出了自己的第一塊 AI 晶片 Sohu,它執行大模型的速度比英偉達 H100 要快 20 倍,比今年 3 月才推出的頂配晶片 B200 也要快上超過 10 倍。
一臺 Sohu 的伺服器執行 Llama 70B 每秒可輸出超過 50 萬個 token,比 H100 伺服器(23,000 個 token / 秒)多 20 倍,比 B200 伺服器(約 45,000 個 token / 秒)多 10 倍。
Sohu 是世界第一款專用於 Transformer 計算的晶片,歷時兩年打造。
作為一塊 ASIC(專用積體電路),Sohu 把對於 transformer 架構的最佳化硬化在晶片中,無法執行大多數「傳統」的 AI 模型:如為 Instagram 廣告提供支援的 DLRM、AlphaFold 2 等蛋白質摺疊模型或 Stable Diffusion 2 等較舊的影像生成模型。我們也無法執行 CNN、RNN 或 LSTM。
但另一方面,對於 transformer 來說,Sohu 就是有史以來最快的晶片,與其他產品之間是量級的區別。如今的每款主流 AI 產品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驅動的。
最近一段時間,由於摩爾定律放緩,GPU 效能的提升很大程度上需要依賴於增加晶片面積和功耗。不論是英偉達 B200、AMD MI300X 還是 Intel Gaudi 3,都不約而同的使用「二合一」的方式提升效能,功耗也翻倍了。
但如果大模型廣泛使用 Transformer 架構,追求專業化或許是提高效能的好方向。
作為一個新興領域,AI 模型的架構過去變化很大。但自 GPT-2 以來,最先進的模型幾乎都在使用 Transformer,從 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自動駕駛所需的模型。
Etched 給我們算了一筆賬:晶片專案的成本為 5000 萬至 1 億美元,需要數年時間才能投入生產。另一方面,當模型訓練成本超過 10 億美元、推理成本超過 100 億美元時,使用專用晶片是不可避免的。在這種產業規模下,1% 的改進就能撬動硬體架構的更新。
速度超 H100 20 倍,FLOPS 利用率超 90%
作為世界上首款 transformer ASIC(應用型專用積體電路)晶片,一臺整合了 8 塊 Sohu 的伺服器可以匹敵 160 塊 H100 GPU。也即,Sohu 的執行速度是 H100 的 20 多倍。
具體來講,透過專門化,Sohu 具備了前所未有的效能。一臺整合 8 塊 Sohu 晶片的伺服器每秒可以處理 50 萬的 Llama 7B tokens。
針對 Llama 3 70B 的 FP8 精度基準測試顯示:無稀疏性、8 倍模型並行、2048 輸入或 128 輸出長度。
此外,對於 Llama、Stable Diffusion 3,Sohu 僅支援 transformer 推理。Sohu 支援了當前谷歌、Meta、微軟、OpenAI、Anthropic 等各家的模型,未來還會適配模型調整。
由於 Sohu 僅能執行一種演算法,因此可以刪除絕大多數控制流邏輯,從而允許擁有更多數學塊。也因此,Sohu 實現了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 約為 30%。
Sohu 為何能輸出更多 FLOPS?
英偉達 H200 支援 989 TFLOPS 的 FP16/BF16 計算能力,並且沒有稀疏性。這是當前最先進的晶片,而 2025 年推出的 GB200 將在計算能力上提升 25%,支援 1250 TFLOPS。
由於 GPU 的絕大部分割槽域都是可程式設計的,因此專注於 transformer 會容納更多的計算。這可以從第一性原理中證明:
構建單個 FP16/BF16/FP8 乘加電路需要 10000 個電晶體,這是所有矩陣數學的基石。H100 SXM 擁有 528 個張量核心,每個核心擁有 4× 8 × 16 FMA 電路。乘法告訴我們:H100 有 27 億個電晶體用於張量核心。
但是,H100 卻有 800 億個電晶體。這意味著 H100 GPU 上只有 3.3% 的電晶體用於矩陣乘法。這是英偉達和其他晶片廠商經過深思熟慮的設計決定。如果你想支援所有型別的模型(CNN、LSTM、SSM 等),那麼沒有比這更好的了。
而透過僅執行 transformer,Etched 可以讓 Sohu 晶片輸出更多的 FLOPS,且需要降低精度或稀疏性。
記憶體頻寬也不是瓶頸
實際上,對於像 Llama 3 這樣的模型,情況並非如此。
我們以英偉達和 AMD 的標準基準為例:2048 個輸入 token 和 128 個輸出 token。大多數 AI 產品的 prompt 更長,比如最新的 Claude 聊天機器人在系統 prompt 中擁有 1000+tokens。
在 Sohu 上,推理是分 batch 執行的。每個 batch 都需要載入所有模型權重一次,並在 batch 的每個 token 中重複使用。通常來說,LLM 輸入是計算密集型的,而 LLM 輸出是記憶體密集型的。當我們將輸入和輸出 token 與連續 batch 結合時,工作負載變成了高度計算密集型。
以下為 LLM 連續 batching 處理的示例,這裡執行具有四個輸入 token 和四個輸出 token 的序列。每種顏色代表不同的序列。
我們可以擴充套件相同的技巧,從而執行具有 2048 個輸入 token 和 128 個輸出 token 的 Llama 3 70B。每個 batch 中包含用於一個序列的 2048 個輸入 token,以及用於 127 個不同序列的 127 個輸出 token。
如果這樣做了,則每個 batch 需要大約 (2048 + 127)×70B 引數 × 每個引數 2 位元組 = 304 TFLOP,而僅需要載入 70B 引數 × 每個引數 2 位元組 = 140 GB 的模型權重和大約 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 快取權重。這比記憶體頻寬需要的計算量多得多:H200 需要 6.8 PFLOPS 的計算才能最大化其記憶體頻寬。這還是利用率為 100% 的情況,如果利用率僅為 30%,則需要 3 倍以上的記憶體。
Sohu 擁有了更多的計算能力且利用率非常高, 因此可以執行巨大的吞吐量,而不會出現記憶體頻寬瓶頸。
軟體如何工作
在 GPU 和 TPU 上,軟體是一場噩夢。處理任意 CUDA 和 PyTorch 程式碼需要極其複雜的編譯器。第三方 AI 晶片(如 AMD、Intel、AWS 等)在軟體上總共花費了數十億美元,但收效甚微。
而 Sohu 只執行 transformer,因此只需要為 transformer 編寫軟體。
大多數執行開源或內部模型的公司都使用特定於 transformer 的推理庫,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
這些框架非常僵化,雖然你可以進行模型超引數調優,但實際上不支援更改底層模型程式碼。但這沒關係,因為所有 transformer 模型都非常相似(甚至是文字 / 影像 / 影片模型),所以超引數調優就是你真正需要的。
雖然 95% 的 AI 公司是這樣,但一些最大的 AI 實驗室採用定製方式。他們有工程師團隊來手動調整 GPU 核心以實現更高的利用率,並進行逆向工程以將暫存器對每個張量核心的延遲將至最低。
Etched 讓我們不需要再進行逆向工程,他們的軟體(從驅動程式、核心到服務堆疊)都將是開源的。如果你想實現自定義 transformer 層,則核心嚮導可以自由地這樣做。
創業團隊:哈佛輟學生領銜
Etched 的 CEO Gavin Uberti 告訴記者:「如果未來 Transformer 不再是主流,那我們就會滅亡。但如果它繼續存在,我們就會成為有史以來最大的公司。」
打造 Sohu 晶片的 Etched 位於加州庫比蒂諾,公司成立僅兩年,目前團隊只有 35 人,創始人是一對哈佛輟學生 Gavin Uberti(前 OctoML 和前 Xnor.ai 員工)和 Chris Zhu,他們與 Robert Wachen 和前賽普拉斯半導體公司技術長 Mark Ross 一起,一直致力於打造專用於 AI 大模型的晶片。
在 Sohu 晶片釋出的同時,Etched 也宣佈已完成了 1.2 億美元的 A 輪融資,由 Primary Venture Partners 和 Positive Sum Ventures 共同領投。Etched 的總融資額已達到 1.2536 億美元,本輪融資的重要投資者包括 Peter Thiel、GitHub 執行長 Thomas Dohmke、Cruise 聯合創始人 Kyle Vogt 和 Quora 聯合創始人 Charlie Cheever。
不過對於佔據超過 80% AI 晶片市場份額的英偉達來說,1.2 億美元只相當於它半天的收入。
「我們如此興奮的原因,選擇輟學的原因,以及我們召集團隊,投身晶片專案的原因在於 —— 這是最重要的工作,」Etched 運營主管 Robert Wachen 說道。「整個技術的未來將取決於算力基礎設施能否實現大規模。」
Uberti 聲稱到目前為止,已有匿名客戶預訂了「數千萬美元」的硬體,預計在今年三季度,Sohu 將推向市場。
未來真的如 Uberti 所說,只有在 Sohu 這樣的晶片上,影片生成、音訊生成、具身智慧等技術才能真正落地嗎?
參考內容:
https://www.etched.com/announcing-etched
https://twitter.com/Etched/status/1805625693113663834
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/