持續五年營收,英偉達的增長神話是如何造就的?

機器之心發表於2018-11-10

持續五年營收,英偉達的增長神話是如何造就的?

英偉達2019財年Q3財報顯示:第三季度營收為31.81億美元,與上年同期的26.36億美元相比增長21%;淨利潤為12.30億美元,與上年同期的8.38億美元相比增長47%。由於Q3業績不及華爾街預期,其盤後股價暴跌逾16%。按照其業績展望,英偉達下個財季營收將同比下跌。

距離英偉達上一次營收同比下滑,還要追溯到2014財年Q3,而這已經是五年前的事了。

5 年前,英偉達聯合創始人、CEO 黃仁勳(Jensen Huang)把重點轉移到了人工智慧的技術研發上。

運算平臺 CUDA 的出現,讓英偉達得以在 HPC 資料中心內成功部署 GPU 加速器,從而降低能耗、提高效能。黃仁勳認為,HPC 及企業計算的前景取決於人工智慧的應用程度,而英偉達 GPU 的平行計算能力是基礎。由於摩爾定律逐漸變慢,人工智慧產業需要持續加速效能的方法。

轉瞬至今,英偉達已成 AI 領域的核心玩家。AI 分支涵蓋機器學習深度學習,當然也包括神經網路訓練與推理。3 年前,英偉達以 Tegra 系列產品進軍深度學習領域,搭載 256 核 GPU 的 Tegra 具備太位元組級別深度學習負載處理能力,GeForce GTX Titan X 顯示卡具備神經網路訓練能力。幾年後,英偉達又先後推出 Drive PX 2 自動駕駛汽車開發平臺,基於 Volta 架構的 GPU——Tesla V100 及支援 GPU-CPU 混合渲染的人工智慧超級計算機 DGX。

英偉達戰略佈局涉及軟體與硬體,從推理軟體 TensorRT(今年第二季度釋出了 TensorRT 4)、搭載英偉達 GPU 的整合優化容器 GPU 加速雲平臺 NGC(Nvidia GPU Cloud),到兩年前釋出的配備機器學習推理能力的 Tesla P4 和 P40 加速器,再到幾個月前推出的 T4 Tensor Core GPU。黃仁勳本週在美國得克薩斯州達拉斯 SC18 釋出會上介紹了上述所有產品。
持續五年營收,英偉達的增長神話是如何造就的?

英偉達將 DGX-2 技術應用在伺服器平臺 HGX-2,以便於 OEM 與 ODM 合作方將其整合到自己的設計中。DGX-2 內部整合了 16 塊 Tesla V100 GPU,使用 NVSwitch 相互連線,能夠提供最高達 2petaflops 的深度計算能力。首批 DGX-2 將在研究機構投入使用,包括橡樹嶺國家實驗室、桑迪亞國家實驗室、布魯克黑文國家實驗室和西北太平洋國家實驗室。

黃仁勳與其他公司高管表示,人工智慧機器學習深度學習和其它人工智慧技術一直助力業務發展。首席財務官科萊特·克雷斯(Collette Kress)表示,今年第二季度,資料中心業務創造了 7.6 億美元的收入,同比增長 83%,其中大部分需求來源於超大規模使用者,他們的雲服務中越來越多地利用人工智慧技術。

「我們的 GPU 為實時服務賦能,如搜尋、語音識別語音合成、翻譯、推薦引擎、欺詐認定及零售應用,」克雷斯在 8 月的一次電話會議上說,「我們的人工智慧和高效能運算解決方案正被越來越多的垂直產業採用,這是我們增速最快的業務之一。」

還是在這場電話會議上,黃仁勳特別強調,推理系統將成為資料中心業務的關鍵。

「全球有 3 千萬臺伺服器在雲端,企業中則有更多的伺服器。」黃仁勳說,「我堅信,未來每臺伺服器都需要加速。原因很簡單:人工智慧深度學習軟體及神經網路模型都將用於預測模型,它們將被嵌入到各種軟體中,加速已被證明是邁向未來的最好方法。近幾(一/二/三)年,英偉達一直在奠定推理方面的基礎。正如我們在 GPU 技術大會(GTC)中所描述的那樣,推理是非常非常複雜的,其原因在於系統必須掌握訓練框架形成的龐大網路的海量輸出資訊,並優化它。這極有可能是有史以來最複雜的計算圖優化問題。」

在為人工智慧工作量構建了多年的硬體和軟體組合之後,黃仁勳在 SC18 上大談雲服務提供商及其他技術供應商如何繼續擁抱人工智慧技術、加速計算如何在日新月異的 HPC 領域(高效能運算機領域)繼續成長。他還指出,V100 GPU 是橡樹嶺國家實驗室超級計算機 Summit 的關鍵。Summit 是全球超級計算機 TOP500 的第一名,勞倫斯列弗莫國家實驗室的 Sierra 排名第二。榜單中共有 127 臺超級計算機使用了英偉達 GPU。

與谷歌雲平臺一樣,伺服器設計 OEM 廠商(如 Dell EMC、 聯想、IBM 和 惠普)以及 57 家 ODM 廠商,都採用英偉達基於圖靈架構的 T4 GPU。T4 的多精度能力是指其能夠完成多層精度表現,從 FP32 浮點效能 8.1 TFLOPS 到 INT4 浮點效能 260 TOPS。T4 適用所有開放計算專案(Open Compute Project)中超大規模使用者的伺服器設計。在推理方面,企業可配備 2 臺 T4 GPU 伺服器,效能相當於 54 臺單核 CPU 伺服器。英偉達稱,在訓練方面,一臺雙 T4 伺服器的效能相當於 9 臺雙通道單核 CPU 伺服器的效能。

黃仁勳還表示,NGC 容器註冊中心已經將框架和應用程式的數量從去年的 18 個增加到現在的 41 個,涉及深度學習 HPC 到 HPC 視覺化的方方面面,包括 ParaView、Rapids、 MILC 及 Matlab 等新軟體。

英偉達還提供新型多節點 HPC 及視覺化容器,使超大規模使用者能夠在大規模叢集上執行工作負載。上述軟程式容器都支援多節點部署,使其通過多節點 GPU 的各節點輕鬆執行大規模計算工作負載,並嘗試改善多伺服器部署環境下的資訊傳遞介面 (MPI) 容器化。

NGC 能在本地使用 Singularity 容器技術,新的「NGC 準備程式」將驗證系統。初始系統包括思科的 UCS C480ML、Dell EMC 的 PowerEdge C4140, 惠普的 Apollo 6500, ATOS 的 BullSequana X1125 及超微的 SYS-40w9GP-TVRT。

「HPC 產業正在發生翻天覆地的變化。」黃仁勳說,HPC 的架構設計被用來測試物理規則及模擬愛因斯坦、麥斯威爾及牛頓公式,「推導知識、預測結果,且未來仍將繼續。不過,我們掌握了一個新工具──機器學習機器學習有兩種解決方法,其中一個需要特徵工程的專家知識,另一個需要使用最底層神經網路自己推理學習關鍵特徵。二者都有各自的侷限性,也各有自己的應用,但都會取得非常大的成功。未來,高效能運算架構將從縱向擴充套件收益,但也將同時橫向擴充套件。……未來,無論是高效能運算還是超計算,架構將開始雙向擴充套件。」

他說,關鍵在於軟體,對於英偉達來說,CUDA 是使其實現軟體耦合及相容的原因。

「加速計算與晶片無關。最終,人們首先想到的是軟體、研究人員、開發人員,建立超越摩爾定律的全堆疊。加速計算事關加速堆疊。當你想加速堆疊且不具備耦合架構時,我不知道使用者如何去使用。」

相關文章