華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力

機器之心發表於2020-08-14
「硬體是 AI 的基礎,但軟體是核心。目前華為昇騰有 70% 研發人員專注於軟體的開發,希望能把昇騰處理器的潛力全部發揮出來。」華為昇騰計算業務總裁許映童說道。

在本週舉行的 HAI 2020 新品釋出會上,華為釋出了迄今為止業界最完整的 AI 全棧軟體平臺,覆蓋從基礎軟體到應用能力的所有方面,在推出業內最強 AI 處理器「昇騰」系列之後,軟體成為了華為昇騰技術發展的新方向。

華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力

華為昇騰計算業務總裁許映童在釋出會上。

這是華為首次披露昇騰 AI 全棧軟體平臺的所有能力。

價格更低,效能翻倍

後摩爾定律時代,人們要想獲得算力提升,很大程度上需要仰賴計算堆疊的「頂層」,即軟體、演算法和硬體架構,這將成為一個新的歷史趨勢。前不久,刊登在 Science 上的一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》引起了人們的廣泛討論:研究人員指出,在軟體層面上,我們還能找到大幅度提升 AI 計算效能的方法。

在 HAI 2020 大會上,華為展示了 Atlas300I 單卡支援 80 路 1080P 智慧影片分析的能力,這個數字是目前競爭對手 Tesla T4 的兩倍。在這背後,既有硬體架構的設計,也有強大軟體的功勞。
華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力
截止 2018 年,國內的攝像頭的數量就已經超過了 2 億個,攝像頭的數量越來越多,影片數量暴增,然而大部分影片內容是無效的,想要剔除大部分無效影片資料,需要人工智慧技術對影片進行智慧分析。對於技術供應者和使用者來說,智慧影片分析技術需要大規模應用需要解決演算法精度的問題,並不斷降低應用成本。

隨著近年來深度學習等技術的發展,AI 演算法識別的精度已不成問題,但越來越多的資料、不斷倍增的模型算力需求和緩慢的晶片製程提升之間存在不小的矛盾。

華為的 Atlas 300I 單卡影片分析能力,可以為公安、交警等部門,以及不少企業使用者在應用場景中帶來巨大的便利。

一張推理卡接管 80 路高畫質影片,這是怎麼做到的?從影片解碼到系統最佳化,華為在任務處理的每個環節上都做了極致的最佳化。

首先,在進行人臉識別、影片結構化、動作識別等智慧影片分析之前,我們需要將影片流解碼為圖片流,隨後才能輸出給深度學習演算法。每塊昇騰 310 晶片中都搭載了 DVPP 硬體單元,至少可支援 16 路 1080P@30fps 的影片解碼需求,對於 25FPS 的影片流,則可以支援超過 20 路——在每張 Atlas 300I 卡上,有 4 塊這樣的晶片。

華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力
Ascend(昇騰)310 晶片的邏輯結構圖。

在影片解碼之後,我們還希望在計算卡上進行資料的臨時儲存。在這裡,智慧影片分析路數越多,需要快取的目標影像數量就越大,儲存空間佔用量也就越大。在 Atlas 310I 計算卡上,華為塞進了共計 32GB 的 DDR 儲存空間。

另一方面,由於異構計算架構 CANN 3.0 對影片解碼流程和底層驅動進行了最佳化,每路 1080P 影片的解碼儲存空間佔用量可以小於 90MB。

在硬體部署之後,裝置的算力峰值是固定的,進一步提升演算法效能的任務就落在了軟體最佳化上。華為的工程師希望從運算元效能和神經網路結構兩方面提升算力效率。昇騰系列處理的離線模型轉換工具 ATC 整合了大量深度最佳化後的運算元和運算元融合規則,在離線運算元轉化過程中會對計算圖進行最佳化和融合,從而提升硬體資源佔用率,提升網路效能。

從之前的各種實驗結果看,昇騰處理適合於 YOLO V3、Inception V3、ResNet 系列神經網路的加速,因此在智慧影片分析任務(如動態人臉識別)中,我們可以選擇類 YOLO V3 架構(如 YOLO V3-Tiny)的演算法模型作為目標檢測演算法,Inception V3、ResNet 系列演算法作為分類、特徵提取演算法或其他網路模型的主網路,可以極大的提升處理效能,充分發揮算力優勢。

在以上四個最佳化步驟之後,華為還有多執行緒時間並行、合理多 Batch 推理、異構資源最佳化等方式進一步對整個流程的各部分進行最佳化,充分利用異構計算資源,提升了系統的線性程度,提高了吞吐量。

使用昇騰晶片進行智慧影片分析,大幅度降低了影片分析的單路硬體成本,為 AI 智慧影片分析技術的大規模推廣奠定了基礎。

極簡易用的昇騰 AI 全棧軟體平臺

Atlas300I 業內最佳效能的成績,是華為昇騰軟體強大的體現。

不僅效率極高,而且簡單易用,華為在 HAI 大會上新發布的產品包括異構計算架構 CANN 3.0、全場景 AI 計算框架 MindSpore、全流程開發工具鏈 MindStudio 2.0、昇騰應用使能 MindX 等。提供的能力覆蓋從運算元、模型開發到應用開發等所有方面:簡而言之,就是可以用一套工具搞定所有任務。

「把簡單留給別人,把複雜留給自己。華為昇騰 AI 全棧軟體平臺可以最大程度發揮硬體效能,降低 AI 應用開發的門檻。」許映童在釋出會上表示。
華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力
此前,想把最先進的 AI 技術應用到實踐中去,我們面臨著不少挑戰。「對於行業使用者來說,選擇哪些 AI 模型是一個難以抉擇的問題。我們看到很多客戶還在使用三四年前提出的,較為落後的模型,他們的技術升級速度較慢,技術難倒英雄漢。」許映童說道。

AI 演算法到產品化應用有很遠,從模型獲取,資料準備到最終的適配開發,初創企業沒有時間和精力完整走完所有歷程。即使對於一些大公司來說,人工智慧的人員專業性需求高,同樣影響了 AI 技術在產業落地。

這些問題,華為認為都不應該由開發者來解決,新發布的 MindX 和 CANN 3.0,就是為了讓 AI 直接可用而生的。

「汽車司機關心的是如何把人和貨物準確送到目的地,而不會去研究汽油如何煉化,或發動機如何工作,」華為昇騰計算業務 CTO 周斌博士說道。「我相信大量行業應用的 AI 開發者更需要 AI 能力的支援,而不是研究原理。這就是我們推出 MindX 的初衷:把複雜的工作交給 MindX,你只需關注如何開發應用,如何把 AI 能力整合進去。」

MindX 1.0 帶來了「2+1+X」模式,其中的 2 是指兩個平臺 MindX DL(Atlas 深度學習平臺)和 MindX Edge(Atlas 智慧邊緣平臺),分別面向雲端和邊緣側;1 指優選模型庫 Model Zoo,而 X 則是使能各行業的 SDK 工具,先期開放的包括視覺SDK mxVision 和製造 SDK mxManufacture。
華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力
另一個重要是軟體系統是 CANN 3.0 異構計算架構。自 2018 年隨華為第一代 AI 晶片釋出起,CANN 已經走過兩個大版本的更新,8 月 10 日釋出的 CANN 3.0 核心理念在於統一端邊雲和架構,自動部署,支援多種計算架構,同時支援後向相容和演進。CANN 3.0 不是簡單地軟體或平臺,它是一個完整的開發體系,其中包含程式語言 TBE,編譯及除錯工具,還有程式設計模型。

正是得益於 CANN 3.0 的架構最佳化,華為實現了一塊 Atlas 300I 推理卡實時處理 80 路影片的能力,此前業內最佳的水平是 40 路。華為表示,在實驗室裡,這個數字還可以更高。

華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力

有關人們是如何把 AI 技術應用到各個行業的,華為對開發者做了一個簡單的畫像:最頂尖的開發者希望進行 AI 運算元和神經網路開發,人數只佔到 1%——他們需要用到 CANN 3.0 和 Mind Studio 的解決方案。

第二類是佔比 10% 的 AI 應用開發者,他們需要 AI 的能力來輔助各類研究。這既需要 AI 基礎知識,也需要相關專業領域的知識,他們需要的是開源 AI 框架 MindSpore——在大多數時間內,開發者們無需瞭解 AI 演算法的具體實現。

「第三類開發者,則是把 AI 技術當作一種服務的 90% 客戶,他們無需理解應用背後的是 YOLO v3,ResNet50 還是其他什麼演算法。使用華為全新的 MindX 1.0,可以全面加速這類工作的開發速度。」許映童表示。

發力軟體的華為

在以往華為的釋出會上,最吸引眼球的往往是硬體和晶片。這次的 HAI 大會則不太一樣,華為花費大量篇幅探討軟體的重要性。正如研究人員所說,除了發展新形態的 AI 硬體之外,軟硬結合才能發揮 AI 的澎湃算力。而在這一方面,華為也證明了自己能做到最好。

華為的全場景 AI 技術已在很多客戶的業務中部署,當然首先就是華為自己。在松山湖園區,基於 Atlas 的智慧製造方案已經在計算產品的生產線上實現了大規模應用——AI 技術貫穿了華為製造的每個環節,就連 Atlas 板卡也是使用 Atlas 技術製造的。人工智慧在完成標籤缺陷檢測、螺釘缺失等任務上已可以實現「秒級檢測」,將質檢準確率由之前的傳統機器視覺質檢的 90% 提升至 99.9%,質檢人員的工作效率提升了 3 倍。

華為已在自家工廠裡實現 AI 的工位級、線體級、車間級應用,覆蓋了超過 80 個產線,面向雲端計算、5G 通訊、終端等產品。而實現如此大規模的 AI 應用,除了打造軟體工具之外,華為只投入了三名開發人員。

「在過去一年裡,華為昇騰的生態佈局初見成效。目前在國內已有 60 所高校開設了昇騰課程,預計到今年年底,這個數字會增長到 100 個以上,昇騰的開發者數量已達到 4 萬多人。這些發展只是小小的第一步,當前的 AI 技術正處在爆發性增長的前夜。」許映童說道。

華為昇騰,AI推理效能超越對手一倍:軟體挖掘處理器全部潛力

在 HAI 2020 大會上,華為也為即將推出的昇騰處理器做出了一點預告:搭載新一代晶片的華為 AI 訓練卡,其效能超過了英偉達 A100。

做好軟硬協同硬核能力,保持開源開放,吸引更多合作伙伴,華為正希望透過領先技術讓昇騰領跑產業 AI 的未來。

相關文章