Google TPU v4釋出:效能兩倍於世界第一超算
在沒有開發者在場的 Google 園區內,Google CEO 桑達爾·皮查伊(Sundar Pichai)宣佈推出多項全新技術,除了能夠幫助使用者實現“空間瞬移”的全息影片聊天技術 Project Starling 讓人耳目一新,還有最新一代 AI 晶片 TPU v4。
“這是我們在 Google 上部署的最快的系統,對我們來說是一個具有歷史意義的里程碑。”皮查伊這樣介紹到。
最強 TPU,速度提升 2 倍,效能提升 10 倍
Google 官方介紹,在相同的 64 晶片規模下,不考慮軟體帶來的改善,TPU v4 相較於上一代 TPU v3 效能平均提升 2.7 倍。
在實際應用中,TPU v4 主要與 Pod 相連發揮作用,每一個 TPU v4 Pod 中有 4096 個 TPU v4 單晶片,得益於其獨特的互連技術,能夠將數百個獨立的處理器轉變為一個系統,互連頻寬在規模上是其他任何網路技術的 10 倍。
每一個 TPU v4 Pod 就能達到 1 exaFlOP 級的算力,實現每秒 10 的 18 次方浮點運算。這甚至是全球最快的超級計算機“富嶽”的兩倍效能。
“如果現在有 1 千萬人同時使用膝上型電腦,所有這些計算機累加的計算能力,剛好就能夠達到 1 exaFLOP 的算力,而之前要達到 1 exaFLOP,可能需要專門定製一個超級計算機。”皮查伊如是說。
今年的 MLPerf 結果表明,GoogleTPU v4 的實力不容小覷,在使用 ImageNet 資料集的影像分類訓練測試(準確度至少 75.90%),256 個 TPU v4 在 1.82 分鐘內完成了這一任務,這幾乎與 768 個 NVIDIA Nvidia A100 圖形卡、192 個 AMD EPYC 7742 核心(1.06 分鐘)、512 個華為 AI 最佳化的 Ascend 910 晶片以及 128 個 Intel Xeon Platinum 8168 核心(1.56 分鐘)組合在一起的速度一樣快。
當負責在大型維基百科語料庫上訓練基於 Transform 的閱讀理解 BERT 模型時,TPU v4 的得分也很高。使用 256 個 TPU v4 進行訓練需要 1.82 分鐘,比使用 4096 TPU v3 進行訓練所需的 0.39 分鐘要慢 1 分多鐘。
同時,如果想要使用 NVIDIA 的硬體達到 0.81 分鐘的訓練時間,需要 2048 張 A100 卡和 512 個 AMD EPYC 7742 CPU 核心。
Google 同樣在I/O大會上展示了能夠用到 TPU v4 的具體 AI 例項,包括能夠同時處理網頁、影像等多種資料的 MUM 模型(Multitask Unified Model,多工統一模型)和專為對話打造的 LaMDA 都是能夠用到 TPU v4 的場景模型,前者比閱讀理解模型 BERT 強 1000 倍,適合賦能搜尋引擎幫助使用者更加高效地得到自己想要的資訊,後者則可以與人類進行不間斷的對話交流。
這一併不向外出售的 TPU,很快將在被部署在 Google 的資料中心,而且 90% 左右的 TPU v4 Pod 都將使用綠色能源。
另外,Google 也表示,將在今年晚些時候開放給 Google Cloud 的客戶。
Google 自研 TPU,五年更新四代
Google 最早於 2016 年宣佈首款內部定製的 AI 晶片,區別於訓練和部署 AI 模型的最常見的組合架構,即 CPU 和 GPU 組合,第一代 TPU 在那場世界著名的人機圍棋大戰助力 AlphaGo 打敗李世石“一戰成名”,宣告並不是只有 GPU 才能做訓練和推理。
Google 第一代 TPU 採用 28nm 工藝製程,功耗大約 40W,僅適用於深度學習推理,除了 AlphaGo,也用在 Google 搜尋、翻譯等機器學習模型中。
2017 年 5 月,Google 釋出了能夠實現機器學習模型訓練和推理的 TPU v2,達到 180TFLOPs 浮點運算能力,同時記憶體頻寬也得以提升,比同期推出的 CPU AI 工作負載提升 30 倍,比 GPU AI 工作負載提升 15 倍,被基於 4 塊 TPU v2 的 AlphaGo 擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。
2018 年 5 月,Google 又釋出第三代 TPU v3,效能是上一代 TPU 的兩倍,實現 420TFLOPs 浮點運算,以及 128GB 的高頻寬記憶體。
按照一年一次迭代更新的節奏,Google 理應在 2019 年推出第四代 TPU,不過這一年的I/O大會上,Google 推出的是第二代和第三代 TPU Pod,可以配置超過 1000 顆 TPU,大大縮短了在進行復雜的模型訓練時所需耗費的時間。
在 AI 晶片發展史上,無論是從片上記憶體上,還是從可程式設計能力來看,Google TPU 都是不可多得的技術創新,打破 GPU 的“壟斷”地位,且開啟雲端 AI 晶片的新競爭格局。
發展五年的 Google TPU 在今天依然保持著強勁的競爭力,未來的世界是什麼樣的?Google TPU 已經告訴了我們一小部分答案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69901823/viewspace-2774345/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Nacos 2.0 正式釋出,效能提升 10 倍!!
- Nacos 2.0 正式釋出,效能提升了 10 倍!!
- 《讀賣新聞》:日本超級計算機“京”實用效能排名世界第一計算機
- 重磅官宣:Nacos2.0 釋出,效能提升 10 倍
- 英偉達釋出全球最大GPU:效能提升10倍,售價250萬GPU
- TurboLinux釋出用於企業的超級計算解決方案(轉)Linux
- 超過Google,微信AI在NLP領域又獲一項世界第一GoAI
- Google 釋出 ARCore 1.0Go
- 中國算力大會,聯想重磅釋出兩款明星算力新品
- TDengine 釋出效能測試報告,寫入效能達到 InfluxDB 的 10.6 倍測試報告UX
- 收藏 | Google 釋出關於機器學習工程的最佳實踐Go機器學習
- Google Coral Edge TPU USB加速棒上手體驗Go
- Google Trends:iPod搜尋流量是Apple Watch的兩倍GoAPP
- 高通正式釋出驍龍 700,AI 效能比驍龍 660 強 2 倍!AI
- Google App Engine 1.7.2 釋出GoAPP
- 富士通釋出新一代超級計算機CPU,運算速度將提升100倍計算機
- OceanBase 3.2 正式釋出 | 更硬核的 HTAP,TPC-H 效能提升6倍!
- 聯想釋出兩款新遊戲筆記本 效能提升支援VR遊戲筆記VR
- Intel官宣兩大全新CPU 一效能猛增8.8倍!Intel
- 英特爾將釋出“超級晶片技術” 效能提高几倍晶片
- Google釋出go程式語言Go
- 深入理解Google TPU的脈動陣列架構Go陣列架構
- 騰訊Tars團隊釋出Tars的go語言版本,效能是grpc五倍GoRPC
- 兩張圖解釋CSS動畫的效能圖解CSS動畫
- 用免費TPU訓練Keras模型,速度還能提高20倍!Keras模型
- 谷歌Rust生產力高於C++兩倍?谷歌RustC++
- 量子霸權終實現?谷歌3分20秒完成世界第一超算萬年運算谷歌
- Google釋出pQRNN新NLP模型:基於投影的高效模型架構GoRNN模型架構
- 重回世界第一,美國宣佈造出“世界最強大的”超級計算機計算機
- Nielsen:智慧手機市場份額iPhone超Android兩倍iPhoneAndroid
- Google釋出linux版本的PicasaGoLinux
- 全球超算500強新榜釋出:美國衛冕 中國力爭
- 騰訊Angel 1.0正式版釋出:基於Java與Scala的機器學習高效能運算平臺Java機器學習
- 《計算機》:2018年11月中國國內超級計算機安裝數量是美國的兩倍多計算機
- 效能超神進化 騰訊ROG遊戲手機7系列新品正式釋出遊戲
- 效能超四倍的高效能.NET二進位制序列化庫
- 全國產百億億次超級計算機啟動研製 速度將十倍於目前最快計算機
- Google:過去十年老論文引用量同比增長兩倍Go