Google TPU v4釋出:效能兩倍於世界第一超算

roc_guo發表於2021-05-28

在沒有開發者在場的 Google 園區內,Google CEO 桑達爾·皮查伊(Sundar Pichai)宣佈推出多項全新技術,除了能夠幫助使用者實現“空間瞬移”的全息影片聊天技術 Project Starling 讓人耳目一新,還有最新一代 AI 晶片 TPU v4。

“這是我們在 Google 上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。”皮查伊這樣介紹到。

Google TPU v4釋出:效能兩倍於世界第一超算Google TPU v4釋出:效能兩倍於世界第一超算

最強 TPU,速度提升 2 倍,效能提升 10 倍

Google 官方介紹,在相同的 64 晶片規模下,不考慮軟體帶來的改善,TPU v4 相較於上一代 TPU v3 效能平均提升 2.7 倍。

在實際應用中,TPU v4 主要與 Pod 相連發揮作用,每一個 TPU v4 Pod 中有 4096 個 TPU v4 單晶片,得益於其獨特的互連技術,能夠將數百個獨立的處理器轉變為一個系統,互連頻寬在規模上是其他任何網路技術的 10 倍。

每一個 TPU v4 Pod 就能達到 1 exaFlOP 級的算力,實現每秒 10 的 18 次方浮點運算。這甚至是全球最快的超級計算機“富嶽”的兩倍效能。

“如果現在有 1 千萬人同時使用膝上型電腦,所有這些計算機累加的計算能力,剛好就能夠達到 1 exaFLOP 的算力,而之前要達到 1 exaFLOP,可能需要專門定製一個超級計算機。”皮查伊如是說。

今年的 MLPerf 結果表明,GoogleTPU v4 的實力不容小覷,在使用 ImageNet 資料集的影像分類訓練測試(準確度至少 75.90%),256 個 TPU v4 在 1.82 分鐘內完成了這一任務,這幾乎與 768 個 NVIDIA Nvidia A100 圖形卡、192 個 AMD EPYC 7742 核心(1.06 分鐘)、512 個華為 AI 最佳化的 Ascend 910 晶片以及 128 個 Intel Xeon Platinum 8168 核心(1.56 分鐘)組合在一起的速度一樣快。

當負責在大型維基百科語料庫上訓練基於 Transform 的閱讀理解 BERT 模型時,TPU v4 的得分也很高。使用 256 個 TPU v4 進行訓練需要 1.82 分鐘,比使用 4096 TPU v3 進行訓練所需的 0.39 分鐘要慢 1 分多鐘。

同時,如果想要使用 NVIDIA 的硬體達到 0.81 分鐘的訓練時間,需要 2048 張 A100 卡和 512 個 AMD EPYC 7742 CPU 核心。

Google 同樣在I/O大會上展示了能夠用到 TPU v4 的具體 AI 例項,包括能夠同時處理網頁、影像等多種資料的 MUM 模型(Multitask Unified Model,多工統一模型)和專為對話打造的 LaMDA 都是能夠用到 TPU v4 的場景模型,前者比閱讀理解模型 BERT 強 1000 倍,適合賦能搜尋引擎幫助使用者更加高效地得到自己想要的資訊,後者則可以與人類進行不間斷的對話交流。

這一併不向外出售的 TPU,很快將在被部署在 Google 的資料中心,而且 90% 左右的 TPU v4 Pod 都將使用綠色能源。

另外,Google 也表示,將在今年晚些時候開放給 Google Cloud 的客戶。

Google 自研 TPU,五年更新四代

Google 最早於 2016 年宣佈首款內部定製的 AI 晶片,區別於訓練和部署 AI 模型的最常見的組合架構,即 CPU 和 GPU 組合,第一代 TPU 在那場世界著名的人機圍棋大戰助力 AlphaGo 打敗李世石“一戰成名”,宣告並不是只有 GPU 才能做訓練和推理。

Google 第一代 TPU 採用 28nm 工藝製程,功耗大約 40W,僅適用於深度學習推理,除了 AlphaGo,也用在 Google 搜尋、翻譯等機器學習模型中。

2017 年 5 月,Google 釋出了能夠實現機器學習模型訓練和推理的 TPU v2,達到 180TFLOPs 浮點運算能力,同時記憶體頻寬也得以提升,比同期推出的 CPU AI 工作負載提升 30 倍,比 GPU AI 工作負載提升 15 倍,被基於 4 塊 TPU v2 的 AlphaGo 擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。

2018 年 5 月,Google 又釋出第三代 TPU v3,效能是上一代 TPU 的兩倍,實現 420TFLOPs 浮點運算,以及 128GB 的高頻寬記憶體。

按照一年一次迭代更新的節奏,Google 理應在 2019 年推出第四代 TPU,不過這一年的I/O大會上,Google 推出的是第二代和第三代 TPU Pod,可以配置超過 1000 顆 TPU,大大縮短了在進行復雜的模型訓練時所需耗費的時間。

在 AI 晶片發展史上,無論是從片上記憶體上,還是從可程式設計能力來看,Google TPU 都是不可多得的技術創新,打破 GPU 的“壟斷”地位,且開啟雲端 AI 晶片的新競爭格局。

發展五年的 Google TPU 在今天依然保持著強勁的競爭力,未來的世界是什麼樣的?Google TPU 已經告訴了我們一小部分答案。

Google TPU v4釋出:效能兩倍於世界第一超算Google TPU v4釋出:效能兩倍於世界第一超算


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69901823/viewspace-2774345/,如需轉載,請註明出處,否則將追究法律責任。

相關文章