史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

大資料文摘發表於2020-04-06

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

大資料文摘作品

還記得8月份佔據各家科技頭條的有史以來最大晶片嗎?

這個名為Cerebras Wafer Scale Engine(WSE)的“巨無霸”面積達到42225 平方毫米,擁有1.2 萬億個電晶體,400000 個核心,片上記憶體18 Gigabytes,記憶體頻寬19 PByte/s,fabric頻寬100 Pbit/s,是目前晶片面積最大的英偉達GPU的56.7倍。

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

就在剛剛,在超級計算2019峰會(Supercomputing 2019 Event)上,這家備受矚目的矽谷初創公司Cerebras,又宣佈了大訊息,釋出了號稱世界上最快的深度學習計算系統CS-1。

Cerebras同時還宣佈,CS-1已經獲得了美國政府超級計算機專案的認可。

目前,第一臺CS-1已經向美國能源部的Argonne國家實驗室交付完畢,將投入處理大規模的人工智慧計算問題,比如研究癌症藥物的相互作用。

儘管CS-1的效能還沒有得到相關驗證,但似乎仍為大規模人工智慧計算提供了一種新可能。

專為人工智慧計算設計的超級計算系統

Cerebras其實是一家剛剛成立三年的矽谷初創公司, 但憑藉幾次重要釋出,目前已經融資超過2億美元。

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

Cerebras主頁

如此受矚目是因為其在人工智慧晶片製造上採取了一種不同以往的方法——將所有資料儲存在一塊巨大的晶片上,以便系統更快執行。

AI系統一般會搭載許多晶片協同工作。但這存在一個顯著問題,在晶片之間進行資料傳輸很慢,並且會限制晶片的分析速度。

成立之初,Cerebras就希望建立一種專門為深度學習最佳化的新型計算機,為特定的工作負載選擇正確的計算機體系結構。

Cerebras表示,與其他系統相比,CS-1的每一個元件都專門針對人工智慧工作最佳化,可以以更小的尺寸和更少的能源消耗下提供更高的計算效能。

CS-1高度達到26英寸(約66釐米),大概相當於一個小的行李箱。據相關報導,一個機架中包含了1,000個GPU的叢集,50千瓦的功率。單個Cerebras晶片的核心數量是單個GPU的78倍以上,記憶體是3,000倍,記憶體頻寬是10,000倍,此外它還具有33000倍的頻寬(PB/s)。

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

CS-1的側檢視

這個效能有多強大呢?對比一下谷歌的TPU v3,CS-1功耗是它的五分之一,體積只有它的三十分之一,但速度卻是整個TPU v3的三倍。

搭載全世界最大晶片,幾分鐘完成傳統晶片幾個月的任務

Cerebras為CS-1設計了專門的系統和軟體平臺,以從史上最大晶片WSE上的40萬個計算核心和18G高效能片上儲存器中提取極限處理能力。

在人工智慧計算中,晶片越大越好。更大的晶片處理資訊更快,能在更短的時間內得到訓練結果。但是,僅有優異的處理器效能還遠不足夠。像WSE這樣的高階處理器必須與專用的軟體相結合才能實現破紀錄的效能。因此,Cerebras專門為這一巨型晶片開發了CS-1內建系統和軟體平臺,各方面都為加速人工智慧計算專門設計。

Cerebras執行長安德魯•費爾德曼(Andrew Feldman)在接受 VentureBeat 採訪時說:“這是從300毫米晶圓中切割出的最大“正方形“。儘管我們擁有最大、最快的晶片,但我們知道,一個非凡的處理器未必足以提供非凡的效能。如果想提供非常快的效能,那麼就需要構建一個系統。而且並不是說把法拉利的引擎放進大眾汽車裡,就能得到法拉利的效能。如果想要獲得1000倍的效能提升,需要做的就是打破瓶頸。

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

Cerebras執行長安德魯•費爾德曼(Andrew Feldman)

Cerebras 表示,他們是唯一一家從頭開始建立專用系統這一任務的公司。透過最佳化晶片設計、系統設計和軟體的各個方面,CS-1目前的效能令人滿意。

透過CS-1和配套的系統軟體, AI需要幾個月才能完成的工作現在可以在幾分鐘內完成,而需要幾個星期完成的工作可以在幾秒鐘內迅速完成。

CS-1不僅從根本上減少了訓練時間,而且還為降低延遲設立了新的標杆。對於深度神經網路,單一影像的分類可以在微秒內完成,比其他解決方案快幾千倍。

“這是一臺由40萬個專用人工智慧處理器組成的人工智慧系統。”費爾德曼說。

已經與Argonne國家實驗室達成合作

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

CS-1分解圖。來源: Cerebras

目前,CS-1的第一臺機器已經完成交付。在Argonne國家實驗室,CS-1正被用於研究癌症的神經網路的開發,幫助理解和治療創傷性腦損傷,CS-1的效能使其成為AI中最複雜問題的潛在解決方案。

Argonne實驗室是一個多學科的科學與工程研究中心,CS-1可以將全球最大的超級計算機站點比現有的AI加速器效能提升100到1000倍。

透過將超級計算能力與CS-1的AI處理能力結合使用,Argonne實驗室現在可以加快深度學習模型的研發,以解決現有系統無法實現的問題。

“我們與Cerebras合作已有兩年多了,我們非常高興將新的AI系統引入Argonne。”Argonne實驗室的計算、環境和生命科學副實驗室主任Rick Stevens表示,“透過部署CS-1,我們大大縮短了神經網路的訓練時間,使我們的研究人員能夠大大提高工作效率,從而在癌症、顱腦外傷以及當今社會重要的許多其他領域的深度學習研究中得到顯著進步。

深度學習是人工智慧的一個領域,它允許計算機網路從大量的非結構化資料中進行學習,然而深度學習模型需要大量的計算能力,並正在挑戰當前計算機系統能夠處理的極限,Cerebras CS-1的推出試圖解決這一問題。

Argonne實驗室部署CS-1以加強人工智慧模型的訓練,它的第一個應用領域是癌症藥物反應預測,這個專案是美國能源部和國家癌症研究所合作的一部分,旨在利用先進的計算機和人工智慧來解決癌症研究中的重大挑戰問題。增加的 Cerebras CS-1正在努力支援Argonne擴大,主要提倡先進的計算,這也有望利用AI功能在2021年釋出的Aurora exascale 系統實現百億億次級連線。

美國能源部負責人工智慧與技術的副部長Dimitri Kusnezov在一份宣告中說:“在能源部,我們相信與私企合作是加速美國人工智慧研究的重要組成部分。我們期待著與Cerebras建立長期而有成效的夥伴關係,這將有助於研究下一代人工智慧技術,並改變能源部的運營、業務和任務的形勢。

費爾德曼說:“我認為,我們將在未來五年內迎來一個非常激動人心的職業生涯。我認為,一小群人可以改變世界,這確實是企業家的口頭禪。你不需要一個大公司,不需要數十億美元,只要一小群傑出的工程師就能真正改變世界。我們始終相信這一點。

仍存在質疑:高昂價格、記憶體過小、演算法瓶頸?

當然,對於這樣一個全新的AI系統,許多網友也提出了質疑。

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

Reddit上針對CS-1的一個討論中,名為“yusuf-bengio”的網友表示,在實際操作中這種“晶圓規模的AI處理器”可能存在瓶頸,比如:

  • 價格。製造這樣一個晶片比小型的GPU昂貴得多;

  • 記憶體過小。存在延遲或頻寬瓶頸;

  • 演算法瓶頸。如果要使用整個晶片,就必須訓練一個極小批次的模型,這反過來會影響準確性。

記憶體的問題也引起了許多網友的共鳴,有網友表示,這個晶片只能用batch_size 1訓練,18GB的靜態隨機存取儲存器(SRAM)直接使得Megatron,T5,甚至是GPT-2這些模型不能使用。

兩大亮點

最後,儘管有質疑,還是再來看看Cerebras公佈的這臺全世界最快計算機的兩大亮點。

CS-1系統

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

上圖: Cerebras聲稱CS-1是最快的人工智慧計算機。圖片來源: Cerebras

“ CS-1是一個單一的系統,可以比最大的叢集提供更多的計算效能,還省去了叢集搭建和管理的開銷。”Tirias Research首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份宣告中表示, “CS-1在單個系統中提供如此多的計算機,不僅可以縮短訓練時間,還可以減少部署時間。總體而言,CS-1可能大幅縮短專案的整體時間,而這是人工智慧研究效率的關鍵指標。

相比於GPU叢集需要數週或數月才能建立起來、需要對現有模型進行大量修改、消耗數十個資料中心的機器以及需要複雜的專用InfiniBand進行叢集搭建不同,CS-1的搭建使用需要數分鐘。

使用者只需接入標準的100Gb乙太網到交換機,就可以用驚人的速度開始訓練模型。

Cerebras軟體平臺

史上最快AI計算機發布!谷歌TPU V3的1/5功耗、1/30體積,首臺實體機已交付

上圖: 近距離觀察Cerebras晶片。圖片來源: Cerebras

CS-1非常易於部署和使用,但是Cerebras的目的不僅是加快訓練時間,還要加快研究人員驗證新想法所需的端到端時間,從模型定義到訓練,從除錯到部署。

Cerebras軟體平臺旨在允許機器學習研究人員在不改變現有工作流程的情況下利用CS-1的效能,使用者可以使用行業標準的機器學習框架(如TensorFlow和PyTorch)為CS-1定義模型訓練。

一個強大的圖形編譯器自動將這些模型轉換為針對CS-1最佳化的可執行檔案,並提供一組視覺化工具進行直觀的模型除錯和分析。

費爾德曼說: “我們使用開源軟體,並儘可能使程式簡單化。”但是目前所知的是,這個系統既不是基於x86,也不是基於Linux。

相關報導:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2665004/,如需轉載,請註明出處,否則將追究法律責任。

相關文章