1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍
機器之心報導
參與:澤南、張倩、杜偉
人類對於算力的追求永無止境。但就在昨天,我們似乎前進了一大步:位於美國加州的創業公司 Cerebras 釋出了號稱全球最大的晶片,而且是專門為 AI 計算打造的。
這款名為 Wafer Scale Engine(WSE)的晶片擁有 1.2 萬億個電晶體,其數量是英偉達最新一代旗艦 GPU Titan V 的 57 倍。它的尺寸已經比一臺 iPad 還要大了:
WSE 使用臺積電 16 奈米制程工藝打造,面積 46,225 平方毫米,包含 400,000 個核心,片上儲存高達 18G,功耗 1.5 萬瓦(約等於 6 臺電磁爐的功率),記憶體頻寬 9PB/秒,通訊結構頻寬 100PB/秒。該公司表示,僅用一塊這樣的晶片即可驅動複雜的人工智慧系統,從無人駕駛汽車到監控系統。
Cerebras 的「暴力美學」引來人們驚呼:WSE 的電晶體數量已經超過人類大腦中的神經元了!
在此之前,其實三星也開發過一款 2 萬億個電晶體的快閃記憶體晶片(eUFS),但 Cerebras 的這款晶片是用來進行處理工作的。此外,WSE 還實現了 3000 倍的速度提升以及 10000 倍的儲存頻寬擴充套件。
這塊晶片面積達到了 46,225 平方毫米,而英偉達 GPU Titan V 的核心面積也「僅有」815 平方毫米。
Cerebras 表示,WSE 可以把處理複雜資料所需的時間從幾個月縮短到幾分鐘。
「AI 模型訓練時間的縮減將會消除這個行業進步的主要瓶頸,」Cerebras 執行長、創始人 Andrew Feldman 表示。他是一個晶片行業資深人士,此前曾將自創的一家公司以 3.34 億美元的價格出售給 AMD。
目前,Cerebras 已在向少量使用者提供這種晶片了,不過價格尚未透露。
今天的人工智慧系統主要基於深度神經網路,其高度依賴於強大的計算機算力——大多數公司使用圖形計算單元(GPU)處理 AI 模型訓練的任務。然而顧名思義,GPU 是為了面向圖形計算而設計的,谷歌等公司近年來已經設計出了 TPU 這樣的神經網路計算專用晶片。
Cerebras 執行長、創始人 Andrew Feldman。
大多數晶片實際上是在一個 12 英寸的矽晶片上集合許多晶片,並在晶片上進行批次加工。但 Cerebras Systems 開發的這款晶片是連線在一個晶片上的單個晶片。互連線的設計是為了讓所有的電晶體都能高速運轉,這樣 1.2 萬億個電晶體就能像一個整體一樣執行。
巨型 AI 晶片真的可行?
晶片的大小在 AI 計算中至關重要,因為晶片越大,處理資訊的速度越快,得出答案的時間也就越短。如果可以減少訓練時間,研究者就可以嘗試更多的想法、使用更多的資料去解決新問題。谷歌、Facebook、OpenAI、騰訊、百度以及其他科技巨頭都表示,當今 AI 最大的問題是模型訓練時間過長。減少訓練時間可以克服整個行業的一大瓶頸。
當然,一般晶片廠商不會選擇把晶片造那麼大,這是因為,在單個晶片上,製造過程中往往會產生一些瑕疵。如果說一個瑕疵會導致晶片出現故障,那麼幾個瑕疵就會導致晶片報廢。如果一個矽晶片上只有一個晶片,那麼產生瑕疵的機率幾乎是百分之百,而瑕疵會導致晶片報廢。為了保證成品率,Cerebras 採用了冗餘式的設計:如果有的核心出了問題,內部連結可以跳過壞掉的核心。這種方法大大降低了晶片的製造成本。
Cerebras Systems 的 CEO Feldman 表示,WSE 晶片著眼於 AI 從頭進行設計,其中包含眾多根本上的創新,透過解決數十年來限制晶片尺寸的問題(如 cross-reticle 連線、成品率、功率輸送、封裝)來提高效能。「每一個架構決策都是為了提高 AI 的效能。因此,WSE 晶片在有限的功耗和空間範圍內,基於工作負載實現了數百甚至數千倍的效能提升。」
這些效能的提升是透過加速神經網路訓練的每一部分來實現的。一個神經網路就是一個多級計算反饋迴路。輸入在迴路中傳遞越快,該回路學習(訓練)的速度就越快。加快輸入傳遞速度可以透過加速回路中的計算和通訊來實現。
WSE 的超大體積使其可以搭載更多用於計算的核以及更加接近核的記憶體,從而核可以高效運轉。由於這個龐大的核陣列和記憶體都在一個晶片上,因此所有的通訊都是在其上進行的,這意味著它的低延遲通訊頻寬是巨大的,所以核組的協作效率可以最大化。
這個 46225 平方毫米的矽晶片上有 40 萬個 AI 最佳化的、無快取、無開銷的計算核以及 18GB 的本地、分散式、超高速 SRAM 記憶體,作為記憶體層次結構的唯一層次。記憶體頻寬為每秒 9PB。這些核透過一個細粒度的、全硬體的、片上網狀連線的通訊網路連線在一起,提供每秒 100 PB 的總頻寬。更多的核、更多的本地記憶體和低延遲的高頻寬結構一起構成了加速 AI 工作的最佳架構。
Tirias Research 創始人兼首席分析師 Jim McGregor 在一份宣告中表示:「雖然 AI 在一般意義上得到應用,但沒有兩個資料集或兩項 AI 任務是相同的。新的 AI 工作負載不斷湧現,資料集也持續增大。」
「隨著 AI 的發展,晶片和平臺解決方案也在不斷髮展。Cerebras WSE 是半導體和平臺設計領域的一項驚人的工程成就,能夠在單晶片規模的解決方案中提供媲美超級計算機的計算能力、高效能記憶體和寬頻。」
這種面積的晶片,供電和冷卻都是大問題,看起來水冷是必須的了。
Cerebras 表示,如果沒有與臺積電多年來的緊密合作,公司就不會取得此次破紀錄的成就。
臺積電高階運營副總裁 J.K. Wang 表示:「我們與 Cerebras Systems 合作製造出了 Cerebras Wafer Scale Engine,這是 wafer scale 開發的一個行業里程碑。」
40 萬個 AI 最佳化的計算核心
WSE 包含 40 萬個 AI 最佳化的計算核心。該計算核心被稱為稀疏線性代數核(Sparse Linear Algebra Cores,SLAC),它們靈活可程式設計,並且為支撐所有神經網路計算的稀疏線性代數進行最佳化。SLAC 的可程式設計性確保核心能夠在不斷變化的機器學習領域執行所有神經網路演算法。
由於 SLAC 針對神經網路計算原語(compute primitives)進行最佳化,因而實現了業界最佳利用率——通常是 GPU 的 3 至 4 倍。此外,WSE 包含 Cerebras 發明的稀疏捕獲技術,以加速深度學習等稀疏工作負載(包含 0 的工作負載)上的計算效能。
零在深度學習計算中很常見。一般情況下,相乘向量和矩陣中的大多數元素都為零。但是,乘零運算浪費了矽、功率和時間,因為沒有生成任何新資訊。
由於 GPU 和 TPU 都是密集型執行引擎——這些引擎在設計時永遠不會考慮零的情況——它們會乘以每個元素(即使元素為零)。當 50-98% 的資料為零時,就像深度學習中常出現的情況,大多數乘法運算是浪費行為。由於 Cerebras 的 SLAC 永遠不會乘以零,因而所有零資料被過濾掉,並可以在硬體中跳過,使得有用功適時適當地完成。
Cerebras 在釋出會上表示,使用這種晶片處理人工智慧負載時,單個晶片可以承載整個神經網路的運算。
18GB 的片上記憶體
記憶體是計算機架構的關鍵元件。記憶體越接近計算,計算速度越快,延遲越低,資料移動的功率效率也越高。高效能深度學習需要大量計算和頻繁的資料訪問。這就要求計算核心與記憶體之間極為接近,但在 GPU 中卻並非如此,GPU 的絕大多數記憶體執行速度很慢,並且遠離晶片。
WSE 包含了較迄今為止最多的核心和本地記憶體,並在一個時鐘週期內擁有 18GB 的片上記憶體。WSE 核心本地記憶體的集合提供了每秒 9PB 的記憶體寬頻——是當前最好 GPU 的片上記憶體的 3000 倍,記憶體寬頻擴充套件了 10000 倍。
高頻寬、低延遲的通訊結構
在晶片面積巨大的情況下,如何保證高速內部通訊也是一個巨大挑戰。WSE 上所使用的處理器間通訊結構被稱為 Swarm,與傳統通訊技術相比,它以非常小的功耗實現了頻寬和延遲的突破。
Swarm 提供了一個低延遲、高寬頻的 2D 網格,它連線了 WSE 上的 40 萬個核心,寬頻每秒達 100PB。此外,Swarm 支援單位元組活躍訊息,這些訊息可以透過接收核心來處理,並且不需要任何軟體開銷。
路由、可靠的訊息傳遞以及同步均在硬體中處理。訊息自動啟用每個到達訊息的應用處理程式。Swarm 為每個神經網路提供獨特和最佳化的通訊路徑。基於執行中特定使用者定義的神經網路,軟體將透過 40 萬個核心來配置最優通訊路徑,以連線處理器。
通常情況下,訊息會遍歷一個具有納秒延遲的硬體連結。一個 Cerebras WSE 的聚合寬頻為每秒 100PB。TCP/IP 和 MPI 等通訊軟體則不再需要,因而可以避免效能損失。同時,這種架構的通訊能量成本遠低於 1 皮焦耳/位元,幾乎比 GPU 低了 2 個數量級。Swarm 通訊架構融合了極大的寬頻和極低的延遲,使得 Cerebras WSE 能夠以較當前任何可用解決方案更快的速度學習。
參考連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2654528/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 英偉達的AI晶片霸主之路!AI晶片
- AMD釋出最強AI晶片,對標英偉達Blackwell,2025年上市AI晶片
- 蘇媽殺瘋了:移動端最強NPU算力達50TOPS,最強AI晶片挑戰英偉達AI晶片
- 英偉達與AI晶片的未來之戰AI晶片
- AI晶片混戰,誰能挑戰英偉達?AI晶片
- 這是一款走心的最新測評:英偉達史上最便宜AI硬體抗造不?AI
- 英偉達釋出史上最強GPU,卻叫停了自動駕駛車路測GPU自動駕駛
- 特斯拉自研AI晶片,要和英偉達說再見?AI晶片
- 英偉達 GTC 大會不僅有 AI 晶片,還有 AI for ScienceAI晶片
- 英偉達釋出「霸王龍」Titan RTX:價格降低,本月上市
- 史上最強 AI 翻譯誕生了!拳打穀歌,腳踢 DeepLAI
- 英偉達 TITAN X 顯示卡工程版細節全面曝光
- AI晶片最強科普AI晶片
- 華為AI晶片真能幹掉英偉達,顛覆現有格局?AI晶片
- Graphcore釋出7奈米IPU二代:594億電晶體,能否挑戰英偉達?
- 英偉達AI:修圖軟體千千萬,效果最牛的還是我這款AI
- 英偉達開源最強通用模型Nemotron-4 340B模型
- AI新利器,英偉達推出新一代超強GPUAIGPU
- 英偉達淨利潤高達50% ARM成史上最大泡沫背後的半導體公司
- 新火種AI|美光、英偉達大漲,AI引爆後,晶片行業寒冬已過?AI晶片行業
- 論PS的功力,英偉達的AI這次誰也不服AI
- 向英偉達發起挑戰的Groq是什麼來頭?簡單科普新型AI晶片LPUAI晶片
- 亞馬遜收購Anthropic,意在切斷英偉達的晶片壟斷亞馬遜晶片
- 英偉達加強與中國汽車廠商的合作
- 英偉達在CES上推出AI處理平臺AI
- 突發!英偉達(NVIDIA)出手絕殺!不允許其他晶片模擬跑CUDA 軟體晶片
- 15億引數!史上最強通用NLP模型誕生:狂攬7大資料集最佳紀錄模型大資料
- 英偉達不止晶片,Omniverse可以這樣用來展示公司風采晶片
- 史上最勵志的遊戲公司,在戰爭中誕生的3A大作遊戲
- 手機AI晶片大盤點,誰最強?AI晶片
- 英偉達副總裁:生物醫療將是與 AI 結合最緊密的行業之一AI行業
- 超算“猛將”英偉達
- 有英偉達新卡的安裝
- 平頭哥釋出最強AI晶片含光800 打破AI晶片效能記錄AI晶片
- AI行業買英偉達GPU,花的錢比賺的多17倍AI行業GPU
- 展現完美的自己 英偉達AI演算法提升視訊會議體驗AI演算法
- 英偉達財報:2020年英偉 達淨利潤23.74億美元 同比增長282%
- 十年磨一劍:英偉達最「閃」GPU 登場,揭曉新一代晶片架構圖靈GPU晶片架構圖靈