1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

AIBigbull2050發表於2019-08-22

機器之心報導

參與:澤南、張倩、杜偉

人類對於算力的追求永無止境。但就在昨天,我們似乎前進了一大步:位於美國加州的創業公司 Cerebras 釋出了號稱全球最大的晶片,而且是專門為 AI 計算打造的。

這款名為 Wafer Scale Engine(WSE)的晶片擁有 1.2 萬億個電晶體,其數量是英偉達最新一代旗艦 GPU Titan V 的 57 倍。它的尺寸已經比一臺 iPad 還要大了:

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

WSE 使用臺積電 16 奈米制程工藝打造,面積 46,225 平方毫米,包含 400,000 個核心,片上儲存高達 18G,功耗 1.5 萬瓦(約等於 6 臺電磁爐的功率),記憶體頻寬 9PB/秒,通訊結構頻寬 100PB/秒。該公司表示,僅用一塊這樣的晶片即可驅動複雜的人工智慧系統,從無人駕駛汽車到監控系統。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

Cerebras 的「暴力美學」引來人們驚呼:WSE 的電晶體數量已經超過人類大腦中的神經元了!

在此之前,其實三星也開發過一款 2 萬億個電晶體的快閃記憶體晶片(eUFS),但 Cerebras 的這款晶片是用來進行處理工作的。此外,WSE 還實現了 3000 倍的速度提升以及 10000 倍的儲存頻寬擴充套件。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍


這塊晶片面積達到了 46,225 平方毫米,而英偉達 GPU Titan V 的核心面積也「僅有」815 平方毫米。

Cerebras 表示,WSE 可以把處理複雜資料所需的時間從幾個月縮短到幾分鐘。

「AI 模型訓練時間的縮減將會消除這個行業進步的主要瓶頸,」Cerebras 執行長、創始人 Andrew Feldman 表示。他是一個晶片行業資深人士,此前曾將自創的一家公司以 3.34 億美元的價格出售給 AMD。

目前,Cerebras 已在向少量使用者提供這種晶片了,不過價格尚未透露。

今天的人工智慧系統主要基於深度神經網路,其高度依賴於強大的計算機算力——大多數公司使用圖形計算單元(GPU)處理 AI 模型訓練的任務。然而顧名思義,GPU 是為了面向圖形計算而設計的,谷歌等公司近年來已經設計出了 TPU 這樣的神經網路計算專用晶片。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

Cerebras 執行長、創始人 Andrew Feldman。

大多數晶片實際上是在一個 12 英寸的矽晶片上集合許多晶片,並在晶片上進行批次加工。但 Cerebras Systems 開發的這款晶片是連線在一個晶片上的單個晶片。互連線的設計是為了讓所有的電晶體都能高速運轉,這樣 1.2 萬億個電晶體就能像一個整體一樣執行。

巨型 AI 晶片真的可行?

晶片的大小在 AI 計算中至關重要,因為晶片越大,處理資訊的速度越快,得出答案的時間也就越短。如果可以減少訓練時間,研究者就可以嘗試更多的想法、使用更多的資料去解決新問題。谷歌、Facebook、OpenAI、騰訊、百度以及其他科技巨頭都表示,當今 AI 最大的問題是模型訓練時間過長。減少訓練時間可以克服整個行業的一大瓶頸。

當然,一般晶片廠商不會選擇把晶片造那麼大,這是因為,在單個晶片上,製造過程中往往會產生一些瑕疵。如果說一個瑕疵會導致晶片出現故障,那麼幾個瑕疵就會導致晶片報廢。如果一個矽晶片上只有一個晶片,那麼產生瑕疵的機率幾乎是百分之百,而瑕疵會導致晶片報廢。為了保證成品率,Cerebras 採用了冗餘式的設計:如果有的核心出了問題,內部連結可以跳過壞掉的核心。這種方法大大降低了晶片的製造成本。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

Cerebras Systems 的 CEO Feldman 表示,WSE 晶片著眼於 AI 從頭進行設計,其中包含眾多根本上的創新,透過解決數十年來限制晶片尺寸的問題(如 cross-reticle 連線、成品率、功率輸送、封裝)來提高效能。「每一個架構決策都是為了提高 AI 的效能。因此,WSE 晶片在有限的功耗和空間範圍內,基於工作負載實現了數百甚至數千倍的效能提升。」

這些效能的提升是透過加速神經網路訓練的每一部分來實現的。一個神經網路就是一個多級計算反饋迴路。輸入在迴路中傳遞越快,該回路學習(訓練)的速度就越快。加快輸入傳遞速度可以透過加速回路中的計算和通訊來實現。

WSE 的超大體積使其可以搭載更多用於計算的核以及更加接近核的記憶體,從而核可以高效運轉。由於這個龐大的核陣列和記憶體都在一個晶片上,因此所有的通訊都是在其上進行的,這意味著它的低延遲通訊頻寬是巨大的,所以核組的協作效率可以最大化。

這個 46225 平方毫米的矽晶片上有 40 萬個 AI 最佳化的、無快取、無開銷的計算核以及 18GB 的本地、分散式、超高速 SRAM 記憶體,作為記憶體層次結構的唯一層次。記憶體頻寬為每秒 9PB。這些核透過一個細粒度的、全硬體的、片上網狀連線的通訊網路連線在一起,提供每秒 100 PB 的總頻寬。更多的核、更多的本地記憶體和低延遲的高頻寬結構一起構成了加速 AI 工作的最佳架構。

Tirias Research 創始人兼首席分析師 Jim McGregor 在一份宣告中表示:「雖然 AI 在一般意義上得到應用,但沒有兩個資料集或兩項 AI 任務是相同的。新的 AI 工作負載不斷湧現,資料集也持續增大。」

「隨著 AI 的發展,晶片和平臺解決方案也在不斷髮展。Cerebras WSE 是半導體和平臺設計領域的一項驚人的工程成就,能夠在單晶片規模的解決方案中提供媲美超級計算機的計算能力、高效能記憶體和寬頻。」

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍


這種面積的晶片,供電和冷卻都是大問題,看起來水冷是必須的了。

Cerebras 表示,如果沒有與臺積電多年來的緊密合作,公司就不會取得此次破紀錄的成就。

臺積電高階運營副總裁 J.K. Wang 表示:「我們與 Cerebras Systems 合作製造出了 Cerebras Wafer Scale Engine,這是 wafer scale 開發的一個行業里程碑。」

40 萬個 AI 最佳化的計算核心

WSE 包含 40 萬個 AI 最佳化的計算核心。該計算核心被稱為稀疏線性代數核(Sparse Linear Algebra Cores,SLAC),它們靈活可程式設計,並且為支撐所有神經網路計算的稀疏線性代數進行最佳化。SLAC 的可程式設計性確保核心能夠在不斷變化的機器學習領域執行所有神經網路演算法。

由於 SLAC 針對神經網路計算原語(compute primitives)進行最佳化,因而實現了業界最佳利用率——通常是 GPU 的 3 至 4 倍。此外,WSE 包含 Cerebras 發明的稀疏捕獲技術,以加速深度學習等稀疏工作負載(包含 0 的工作負載)上的計算效能。

零在深度學習計算中很常見。一般情況下,相乘向量和矩陣中的大多數元素都為零。但是,乘零運算浪費了矽、功率和時間,因為沒有生成任何新資訊。

由於 GPU 和 TPU 都是密集型執行引擎——這些引擎在設計時永遠不會考慮零的情況——它們會乘以每個元素(即使元素為零)。當 50-98% 的資料為零時,就像深度學習中常出現的情況,大多數乘法運算是浪費行為。由於 Cerebras 的 SLAC 永遠不會乘以零,因而所有零資料被過濾掉,並可以在硬體中跳過,使得有用功適時適當地完成。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍


Cerebras 在釋出會上表示,使用這種晶片處理人工智慧負載時,單個晶片可以承載整個神經網路的運算。

18GB 的片上記憶體

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

記憶體是計算機架構的關鍵元件。記憶體越接近計算,計算速度越快,延遲越低,資料移動的功率效率也越高。高效能深度學習需要大量計算和頻繁的資料訪問。這就要求計算核心與記憶體之間極為接近,但在 GPU 中卻並非如此,GPU 的絕大多數記憶體執行速度很慢,並且遠離晶片。

WSE 包含了較迄今為止最多的核心和本地記憶體,並在一個時鐘週期內擁有 18GB 的片上記憶體。WSE 核心本地記憶體的集合提供了每秒 9PB 的記憶體寬頻——是當前最好 GPU 的片上記憶體的 3000 倍,記憶體寬頻擴充套件了 10000 倍。

高頻寬、低延遲的通訊結構

在晶片面積巨大的情況下,如何保證高速內部通訊也是一個巨大挑戰。WSE 上所使用的處理器間通訊結構被稱為 Swarm,與傳統通訊技術相比,它以非常小的功耗實現了頻寬和延遲的突破。

1.2萬億電晶體,史上最強AI晶片誕生:英偉達Titan V的57倍

Swarm 提供了一個低延遲、高寬頻的 2D 網格,它連線了 WSE 上的 40 萬個核心,寬頻每秒達 100PB。此外,Swarm 支援單位元組活躍訊息,這些訊息可以透過接收核心來處理,並且不需要任何軟體開銷。

路由、可靠的訊息傳遞以及同步均在硬體中處理。訊息自動啟用每個到達訊息的應用處理程式。Swarm 為每個神經網路提供獨特和最佳化的通訊路徑。基於執行中特定使用者定義的神經網路,軟體將透過 40 萬個核心來配置最優通訊路徑,以連線處理器。

通常情況下,訊息會遍歷一個具有納秒延遲的硬體連結。一個 Cerebras WSE 的聚合寬頻為每秒 100PB。TCP/IP 和 MPI 等通訊軟體則不再需要,因而可以避免效能損失。同時,這種架構的通訊能量成本遠低於 1 皮焦耳/位元,幾乎比 GPU 低了 2 個數量級。Swarm 通訊架構融合了極大的寬頻和極低的延遲,使得 Cerebras WSE 能夠以較當前任何可用解決方案更快的速度學習。

參考連結:



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2654528/,如需轉載,請註明出處,否則將追究法律責任。

相關文章