可訓練24萬億引數的大模型，Cerebras 推出其下一代晶圓級 AI 晶片

ScienceAI發表於2024-03-14

原文網址 : https://www.jiqizhixin.com/articles/2024-03-14-6

大模型AI晶片

圖：Cerebras 第三代晶圓級 AI 巨型晶片 WSE-3。（來源：Cerebras）

編輯 | 白菜葉

人工智慧超級計算機公司 Cerebras 表示，其下一代晶圓級人工智慧晶片可以在消耗相同電量的情況下將效能提高一倍。

Wafer Scale Engine 3 (WSE-3，文中又稱 CS-3) 包含 4 萬億個電晶體，由於使用了更新的晶片製造技術，比上一代增加了 50% 以上。

該公司表示將在新一代人工智慧計算機中使用 WSE-3，這些計算機目前正在 Dallas 的一個資料中心組裝，這將是一臺能夠執行 8 exaflops（每秒 80 億次浮點運算）的超級計算機。

另外，Cerebras 與高通簽訂了一項聯合開發協議，旨在將人工智慧推理的價格和效能指標提高 10 倍。

CS-3 可訓練高達 24 萬億個引數的神經網路模型，是當前最大 LLM 規模的 10 倍多

憑藉 WSE-3，Cerebras 可以繼續生產世界上最大的單晶片。它呈正方形，邊長為 21.5 釐米，幾乎使用整個 300 毫米矽片來製造一個晶片。

晶片製造裝置通常僅限於生產不超過約 800 平方毫米的矽晶片。晶片製造商已經開始透過使用3D整合和其他先進封裝技術來突破這一限制，以組合多個晶片。不過，即使在這些系統中，電晶體數量也達到數百億個。

像往常一樣，這個大晶片配備了一些令人歎為觀止的高階功能。

你可以在 WSE 晶片的發展史中看到摩爾定律的作用。第一個於 2019 年首次亮相，採用臺積電的 16 奈米技術製造。對於 2021 年推出的 WSE-2，Cerebras 轉而採用臺積電的 7 奈米工藝。WSE-3 採用 5 奈米技術製造。

自第一個巨型晶片問世以來，電晶體的數量增加了兩倍多。與此同時，它們的用途也發生了變化。例如，晶片上的人工智慧核心數量已顯著趨於平穩，記憶體量和內部頻寬也是如此。每秒浮點運算（flops）方面的效能改進已經超過了所有其他指標。

圖：Cerebras 處理器的標準化變化。（來源：IEEE Spectrum）

CS-3 和 Condor Galaxy 3

圍繞新型人工智慧晶片 CS-3 構建的計算機旨在訓練新一代巨型語言模型，比 OpenAI 的 GPT-4 和谷歌的 Gemini 大 10 倍。

該公司表示，CS-3 可以訓練高達 24 萬億個引數的神經網路模型，是當今最大的 LLM 規模的 10 倍多，並且無需訴諸其他計算機所需的一組軟體技巧。

根據 Cerebras 的說法，這意味著在 CS-3 上訓練 1 萬億個引數模型所需的軟體就像在 GPU 上訓練 10 億個引數模型一樣簡單。

可以組合多達 2,048 個系統，這一配置可以在一天內從頭開始訓練 LLM Llama 70B。不過，該公司表示，還沒有那麼大的專案正在進行中。

第一臺基於 CS-3 的超級計算機是位於 Dallas 的 Condor Galaxy 3，它將由 64 臺 CS-3 組成。與其基於 CS-2 的兄弟系統一樣，Abu Dhabi 的 G42 擁有該系統。與 Condor Galaxy 1 和 2 一起構成一個 16 exaflops 的網路。

「現有的 Condor Galaxy 網路已經訓練了一些業內領先的開源模型，下載量已達數萬次。」G42 的技術長 Kiril Evtimov 在一份新聞稿中表示，「透過將容量加倍至 16 exaflops，我們期待看到 Condor Galaxy 超級計算機能夠實現的下一波創新浪潮。」

與高通達成協議

雖然 Cerebras 計算機是為訓練而構建的，但 Cerebras 執行長 Andrew Feldman 表示，推理、神經網路模型的執行才是人工智慧使用的真正限制。

據 Cerebras 估計，如果地球上的每個人都使用 ChatGPT，每年將花費 1 萬億美元，更不用說大量的化石燃料能源了。（運營成本與神經網路模型的規模和使用者數量成正比。）

因此，Cerebras 和高通建立了合作伙伴關係，目標是將推理成本降低 10 倍。Cerebras 表示，他們的解決方案將涉及應用神經網路技術，例如權重資料壓縮和稀疏性。

該公司表示，經過 Cerebras 訓練的網路將在高通公司的新型推理晶片 AI 100 Ultra 上高效執行。

相關報導：https://spectrum.ieee.org/cerebras-chip-cs3

SRAM中晶圓級晶片級封裝的需求
2020-09-16
晶片封裝
4萬億個電晶體，單機可訓練比GPT4大10倍的模型，最快最大的晶片面世
2024-03-14
GPT模型晶片
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
監控大模型訓練
2024-03-13
大模型
ChatGPT要慌了？谷歌推出最新AI大模型Gemma（可本地部署）
2024-03-02
ChatGPT谷歌AI大模型Gemma
AI打遊戲-肆（模型訓練）
2023-09-22
AI遊戲模型
大模型如何提升訓練效率
2024-07-08
大模型
蘋果推出 M4 AI晶片：大模型很快就能在手機上執行
2024-05-08
蘋果AI晶片大模型
Epoch AI：硬體佔訓練前沿AI模型成本的47-67%
2024-10-11
AI模型
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
亞洲最大！上海“巨無霸”AI計算中心投用，支援萬億引數大模型訓練
2022-01-25
AI大模型
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
AMD、蘋果、高通GPU存在漏洞，可致AI模型訓練資料洩露
2024-01-19
蘋果GPUAI模型
大模型量化訓練極限在哪？騰訊混元提出低位元浮點數訓練Scaling Laws
2025-01-16
大模型
大模型訓練效率是推動大模型進化關鍵
2023-11-14
大模型
新華三推出人工智慧模型訓練平臺，讓智慧算力觸手可及
2022-12-20
人工智慧模型
史丹佛大學推出線性前沿LLM技術，訓練模型成本僅為20美元
2024-11-14
模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
飛槳圖學習大模型訓練框架
2023-04-10
大模型框架
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
大模型落地實戰指南：從選擇到訓練，深度解析顯示卡選型、模型訓練技、模型選擇巧及AI未來展望—打造AI應用新篇章
2024-03-26
大模型AI
面向大模型訓練，騰訊雲釋出新一代高效能運算叢集
2023-04-16
大模型
NVIDIA 推出 Grace CPU 超級晶片
2022-03-24
晶片
180G！中文ELECTRA預訓練模型再升級
2020-10-26
模型
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
大規模表格預訓練模型 SPACE-T
2023-04-18
模型
什麼是LLM大模型訓練，詳解Transformer結構模型
2024-06-04
大模型ORM
數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science
2024-08-08
深度學習AI
如何藉助分散式儲存 JuiceFS 加速 AI 模型訓練
2023-04-26
分散式UIAI模型
低價策略幫助AI企業降低模型訓練成本
2023-01-17
AI模型
微軟讓訓練萬億引數AI模型的GPU需求從4000個減少到800個
2020-09-18
微軟AI模型GPU
Nature封面：AI訓練AI，越訓越離譜
2024-07-25
AI
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
fasttext訓練模型程式碼
2020-12-23
AST模型
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch

可訓練24萬億引數的大模型，Cerebras 推出其下一代晶圓級 AI 晶片

相關文章