可訓練24萬億引數的大模型,Cerebras 推出其下一代晶圓級 AI 晶片

ScienceAI發表於2024-03-14
可訓練24萬億引數的大模型,Cerebras 推出其下一代晶圓級 AI 晶片
圖:Cerebras 第三代晶圓級 AI 巨型晶片 WSE-3。(來源:Cerebras)

編輯 | 白菜葉

人工智慧超級計算機公司 Cerebras 表示,其下一代晶圓級人工智慧晶片可以在消耗相同電量的情況下將效能提高一倍。

Wafer Scale Engine 3 (WSE-3,文中又稱 CS-3) 包含 4 萬億個電晶體,由於使用了更新的晶片製造技術,比上一代增加了 50% 以上。

該公司表示將在新一代人工智慧計算機中使用 WSE-3,這些計算機目前正在 Dallas 的一個資料中心組裝,這將是一臺能夠執行 8 exaflops(每秒 80 億次浮點運算)的超級計算機。

另外,Cerebras 與高通簽訂了一項聯合開發協議,旨在將人工智慧推理的價格和效能指標提高 10 倍。

CS-3 可訓練高達 24 萬億個引數神經網路模型,是當前最大 LLM 規模的 10 倍多

憑藉 WSE-3,Cerebras 可以繼續生產世界上最大的單晶片。它呈正方形,邊長為 21.5 釐米,幾乎使用整個 300 毫米矽片來製造一個晶片。

晶片製造裝置通常僅限於生產不超過約 800 平方毫米的矽晶片。晶片製造商已經開始透過使用3D整合和其他先進封裝技術來突破這一限制,以組合多個晶片。不過,即使在這些系統中,電晶體數量也達到數百億個。

像往常一樣,這個大晶片配備了一些令人歎為觀止的高階功能。

圖片

你可以在 WSE 晶片的發展史中看到摩爾定律的作用。第一個於 2019 年首次亮相,採用臺積電的 16 奈米技術製造。對於 2021 年推出的 WSE-2,Cerebras 轉而採用臺積電的 7 奈米工藝。WSE-3 採用 5 奈米技術製造。

自第一個巨型晶片問世以來,電晶體的數量增加了兩倍多。與此同時,它們的用途也發生了變化。例如,晶片上的人工智慧核心數量已顯著趨於平穩,記憶體量和內部頻寬也是如此。每秒浮點運算(flops)方面的效能改進已經超過了所有其他指標。

圖片

圖:Cerebras 處理器的標準化變化。(來源:IEEE Spectrum)

CS-3 和 Condor Galaxy 3

圍繞新型人工智慧晶片 CS-3 構建的計算機旨在訓練新一代巨型語言模型,比 OpenAI 的 GPT-4 和谷歌的 Gemini 大 10 倍。

該公司表示,CS-3 可以訓練高達 24 萬億個引數神經網路模型,是當今最大的 LLM 規模的 10 倍多,並且無需訴諸其他計算機所需的一組軟體技巧。

根據 Cerebras 的說法,這意味著在 CS-3 上訓練 1 萬億個引數模型所需的軟體就像在 GPU 上訓練 10 億個引數模型一樣簡單。

可以組合多達 2,048 個系統,這一配置可以在一天內從頭開始訓練 LLM Llama 70B。不過,該公司表示,還沒有那麼大的專案正在進行中。

第一臺基於 CS-3 的超級計算機是位於 Dallas 的 Condor Galaxy 3,它將由 64 臺 CS-3 組成。與其基於 CS-2 的兄弟系統一樣,Abu Dhabi 的 G42 擁有該系統。與 Condor Galaxy 1 和 2 一起構成一個 16 exaflops 的網路。

「現有的 Condor Galaxy 網路已經訓練了一些業內領先的開源模型,下載量已達數萬次。」G42 的技術長 Kiril Evtimov 在一份新聞稿中表示,「透過將容量加倍至 16 exaflops,我們期待看到 Condor Galaxy 超級計算機能夠實現的下一波創新浪潮。」

與高通達成協議

雖然 Cerebras 計算機是為訓練而構建的,但 Cerebras 執行長 Andrew Feldman 表示,推理、神經網路模型的執行才是人工智慧使用的真正限制。

據 Cerebras 估計,如果地球上的每個人都使用 ChatGPT,每年將花費 1 萬億美元,更不用說大量的化石燃料能源了。(運營成本與神經網路模型的規模和使用者數量成正比。)

因此,Cerebras 和高通建立了合作伙伴關係,目標是將推理成本降低 10 倍。Cerebras 表示,他們的解決方案將涉及應用神經網路技術,例如權重資料壓縮和稀疏性。

該公司表示,經過 Cerebras 訓練的網路將在高通公司的新型推理晶片 AI 100 Ultra 上高效執行。

相關報導:https://spectrum.ieee.org/cerebras-chip-cs3

相關文章