7月25日-26日,在中國科學技術協會、中國科學院、中國工程院、浙江省人民政府、杭州市人民政府、浙江省人工智慧發展專家委員會指導下,由中國人工智慧學會、杭州市餘杭區人民政府主辦,浙江杭州未來科技城管理委員會承辦的2020全球人工智慧技術大會在“數字之都”——杭州,成功舉辦。在7月26日舉辦的 CAAI人工智慧大講堂暨雲課堂上華為昇騰計算業務CTO 周斌為我們帶來了題為 “人工智慧推動新基建和資料中心的技術革新”的精彩演講。
以下是周斌的演講實錄:
不管多麼漂亮的演算法、人工智慧(AI)的應用,這些都有賴於底層核心計算技術上的突破,所有的這一切都依賴於最核心的根,也就是晶片。在這些根技術之上,AI 計算產業才能成長為繁盛的大樹。今天給大家分享,如何透過最核心的華為的AI 資料中心側的解決方案,把各種酷炫的演算法和應用變為現實。內容分為幾個方面,第一個是在當前形勢下,我國一直在強調新基建,新基建AI 的資料中心,成為我們所有智慧系統的載體。在這樣的情況下,AI 的資料中心有怎樣的趨勢?面臨什麼樣的技術挑戰?還要給大家分享華為Atlas 資料中心的解決方案,如何用炫酷的根技術、硬核科技解決一些挑戰,以及一些應用案例。
30 年的基礎設施建設積累奠定了我國社會發展的基石,我們修路、架設電力系統、做連線,華為就是一家基於連線提供高速、高效率連線系統的公司之一。有了這些基礎設施社會得以執行,才能夠成為一個高速、高效發展的社會。隨著AI技術的到來,每個人都在談論AI,所有的事都圍繞AI 開展,因為AI 是具有溢位和帶動性戰略的技術,會成為新基建的一個重要組成部分。
新一代資訊科技已經演化成基礎設施,現在的基礎設施包括了通訊的基礎設施,比如5G、工業網際網路、物聯網,甚至是衛星網際網路;還有一些新技術的基礎設施,比如雲端計算、AI、區塊鏈,以及一些算力基礎設施,所有的資料在前端經過感測器採集後,透過高速的互聯絡統,一定要經過處理系統去解決,才能夠真正變成有價值的應用。
算力基礎設施需要在資料中心、智慧計算的資料中心開展。不僅透過基礎設施的建設,傳統的基礎設施相對獨立,但在不同體系裡,基礎設施有一定的融合關係,比如在智慧能源、智慧交通的體系裡,它的資料採集的方式、資料傳輸的方式和要求,以及資料儲存和處理的要求都不一樣。所以我們期望在行業裡形成融合的基礎設施,為特定的行業轉型升級提供堅強的技術支撐。
在關係到國計民生的基礎設施上,要進行大量的科學研究、技術創新,具有公益屬性的基礎設施,比如重大科技的基礎設施,解決探索物理和宇宙的一些問題,以及正在進行的科研教學、產業創新,這些都有賴於透過提供大規模的具有公益屬性的基礎設施才能夠完成。所以在所有的這些基礎設施的前提下,我們把AI 定位成具有溢位帶動性的戰略技術。
在各行各業的體系裡,不管是基於影像、語音、機器人、自動駕駛,還是基於控制的體系裡,AI 已具有非常強的基礎能力,這些基礎能力需要讓AI 融合在基礎設施裡,成為新基建的一部分。新生產要素的革新是數字經濟繁榮的前提和基礎,已順利成為新的先進生產力。在這一代AI 革命,不管是演算法的提升,還是應用的變化,這一切都來源於計算能力的提升。我們也可以看到AI 在這個時刻發生了非常大的躍進,或者說在這一代AI上,可以感覺到它才是真正有一定智慧的系統。這裡的核心來源之一是計算能力。現在每一顆手機晶片裡的計算能力都達到了幾萬億計算能力的範疇,這些能力使得AI 運算成為可能。
現階段的AI 模型、AI 演算法和應用,極大地消耗著各種各樣的計算資源,計算資源已和電力、公路交通、能源、通訊一樣,成為我們的基礎生產力。為了支援自主創新、可持續發展和開放領先的一些裝置,希望算力能夠為大家提供最基本的支撐。基於目前面臨著資料爆炸的前提,所以我們可以看到大量的感測器,每個人的手機攝像頭都是超高畫質,每天所產生的影片影像資料指數級的爆炸增長。
這些資料不管是產生於各種感測器、採集系統或業務系統,都成為最為核心的生產資料。而有了算力作為基本的生產力,資料作為生產資料,我們希望能做到普惠的AI,也就是每個人在生活中都被AI 環繞著。每天清晨有AI 把你叫醒,幫忙準備早飯;AI 為你預告天氣;AI 提醒你要做什麼事並安排出行,汽車自動駕駛將你送到工作場所,相關工作由AI 來輔助。當然,前提是還要做很多創造性的工作,所以我們希望普惠AI 能實現社會的高質量發展。而這一切都依賴於一個非常高效率、穩定可靠、大頻寬的網際網路絡。我們希望網路也隨著計算的基礎設施同步演進,提供超大頻寬、超低延遲、海量連線的新AI 時代的基礎互聯結構。當前,我們已經邁向了AI 時代,現階段真正處在了爆炸式創新的前夜, AI 時時刻刻給我們帶來很多驚喜。
AI 和5G 的結合,萬物的互聯,讓資料無處不在,比如自動駕駛。我相信自動駕駛的各種運輸器械、汽車、火車等一系列體系能夠高效、安全地把大家運送到目的地。但是在自動駕駛裡面,我期望有超低的時延,因為自動駕駛系統需要快速響應周邊複雜環境和多變的異常情況。
比如工業自動化,我們希望在產線上機器人能夠快速完成所有的生產;希望電網更智慧,我們的基礎設施能夠及時發現電力系統的波動和突發的這樣一些事件,並且及時隔離;我們玩遊戲時希望VR、AR 系統能夠流暢的體驗,進入非常真實的遊戲世界。這一切隨著AI 在基礎的計算賦能,也需要用5G 為大家進行跨越式的能力提升。所以5G 時代的到來,實際上能夠開啟非常美好的新AI 資料生活,高速無時延的傳輸使中心訓練邊緣推理成為可能,每平方公里可以連線百萬終端,讓萬物互聯我們大量的互聯資料、互聯的裝置,透過5G 連成一個整體,透過AI 基礎設施和算力進行高效處理。
智慧時代計算無處不在,每個人的身邊都有很多強大的計算裝置。計算機曾經是大塊頭、鐵疙瘩,但隨著技術的進展,每個人、家庭、組織都有大量的計算裝置,並且這些計算裝置的能力涵蓋很多範疇。比如,我們資料中心的計算能力已提升到億級且計算裝置已開始深入行業,在公共系統裡、生產線上AI 正24 小時不停地製造產品,攝像裝置也在時時刻刻保障安全。
智慧汽車很快就會運送我們到目的地, AI 也會走入每個人的生活,手機、電器、智慧裝置無處不在,並且它的計算模式也處在一個異構計算的模式。我們說異構計算已經開始興起,AI 演算法開始不斷突破,這也開啟了無限可能。AI 已經在影像分類、語音識別、遊戲決策和閱讀理解裡面,基本上接近或者超過人類的能力,我們說這些是感知的AI 範疇。對於認知的AI 化,相信在短期內不會超過我們,人類還是有掌控力的。我個人認為,在短期內真正的具有與人類通識能力的AI還無法快速實現。但AI 在特定任務和特定領域裡,已能夠非常好的替代我們去幹一些繁重的、重複,對於智力要求不高的工作,可以把我們真正解放出來從事創造性強的工作。
我們希望用AI 真正推動生產力進步。隨著5G 時代和AI 時代的到來,我們處在了一個爆炸式創新的前夜,爆炸式增長的資料,以及連線數目爆炸式增長,帶來資料指數級爆炸式的增長,預測到2050 年將會產生180 ZB 的資料。面對無處不在的計算,我們有大量的智慧終端,邊緣算力迅猛增長,在家庭中的算力甚至於超過之前的超算。同時超級計算機這樣一些計算裝置的出現,讓我們有無所不及的智慧,不僅是在資料中心,而且資料中心的AI 計算已經開始要佔據主流資料中心,推動雲邊端協同,讓整個智慧互聯智慧資料的傳輸處理和最終的提升都融合成一個整體。、
我們希望AI 作為一種新的通用目的技術,general purpose technology 嵌入到每一個家庭、組織、個人,我們深信AI 技術將深刻推動社會的發展程式。人工智慧現在是炒得火熱的一個話題,但人工智慧與生產力的結合,這樣的鉅變才剛剛開始。每一個人工智慧在生產技術層面和應用層面的落地,將會極大地改變我們整個社會的發展,促進整個社會生產力的提升,並且帶來極大的市場價值。
未來5 年,我們認為行業的AI 應用會成為一個主要的需求。AI 具有行業的屬性,能夠和行業結合,快速的落地,推動行業的進步,真正讓每個人都享受到AI 帶來的便利與價值。行業呈現多樣性,千行百業所帶來的多樣性計算需求急劇的增加,未來非結構化資料的處理需求將呈指數級增長。城市智慧物聯網自動駕駛和智慧手機多元化的應用裡,非結構化資料大量產生,並且需要實時處理。比如語音影片流、直播,我們顯然不希望它們兩天之後才到使用者手上,希望有一個快速的響應和實施的處理模式。這就逼迫計算由傳統的通用計算轉向異構計算。CPU 的效能受限於摩爾定律,並且由於製成的提升,製成的物理限制已經開始逐漸走向失效的狀態,也就意味著CPU 的效能提升,每年的提升倍數已經由原來的1.5 倍降到了1.1 倍。
長久以來,CPU 及它的提升效能已變得很平緩,異構這樣一個架構。剛才各位專家提到我們說的DSL,best architecture 所帶來的架構上的創新,將打破現有的通用計算的瓶頸,推動摩爾定律持續的演進。針對AI 的機構計算架構,現在開始成為AI 計算裡核心的訴求。所以我們一看到NPU針對於神經網路的專用處理系統,它的算力增長繼續沿襲著摩爾定律的比例高速增長,從而真正能夠滿足千行百業對於AI 計算需求的急劇增加。
AI 算力仍然是稀缺和昂貴的資源,且難以滿足。如現階段指數級訓練需求的增長,最新的神經網路模型有1700 多億的引數訓練一次,所消耗超過千萬美金量級。AI 算力的需求還在持續增長,推動著我們計算系統不停演進,但現階段都能由AI 協同完成。我們希望一個開放的架構,希望它簡單應用,同時也希望AI 用得放心,因為現在所有人都在擔心,如果AI 失控,會不會對生活產生很大的影響。所以我們希望有高安全性,同時也希望系統可靠,當然不想看到自動駕駛汽車一旦受到干擾就拋錨。所以用得起、用得好、用得放心,是期望在AI 資料中心裡能夠提供的。
當然不僅是在資料中心,希望所有AI 系統都能使用這樣的AI 案例。華為作為為大家提供硬殼基礎設施的一家公司,我們以提供用得起、用得好、用得放心的AI 算力作為現階段目標。在這裡,我給大家分享一下華為Atlas 資料中心人工智慧的解決方案,這是一個能夠提供用得起、用得好、用得放心的全棧全場景的資料中心AI 解決方案。
我們從底層的AI 架構開始構建了面向不同場景的AI 晶片,包括昇騰310,這是一顆面向推理應用的,包括邊緣推理、中心推理的強大推理晶片。昇騰910,這是一個主要面向AI 訓練的晶片。基於這些底層的基礎技術,打造了完整的AI 解決方案,包括資料中心的推理解決方案、訓練解決方案,以及強大的AI 叢集超算解決方案。這些解決方案的體現形式包括不同的AI 板卡、訓練級板卡、推理板卡、推理伺服器、訓練伺服器,以及大規模的叢集系統。
在這些硬體系統之上,華為也推出了全棧的軟體解決方案,包括有晶片使能的CANN(Compute Architecture for Neural Network)層,可以非常方便對整個AI 計算系統進行程式設計開發。在此基礎之上,我們也提供完整的應用支撐,包括框架支援。華為推出自主智慧財產權的MindSpore AI 計算框架,也同樣支援現在主流的TensorFlow、Pytroch 等,其他AI 框架也在不停擴充支援。
我們在這些AI 框架的基礎上,推出Atlas 深度學習平臺,它擁有使用者管理、模型管理、資料處理等一整套體系,我們也和行業合作伙伴一起推出基於Atlas 深度學習平臺的各種深度學習系統和完整的商業解決方案。針對不同的行業,我們推出行業的SDK,包括視覺智慧、視覺處理、智慧製造,以及能夠感受到的各種千行百業的SDK。華為還會推出基於各種預訓練模型的ModelZoo,能讓大家非常容易獲得最新的對應的state of the art 深度學習模型。基於全棧全場景的解決方案,我們也同步提供開發工具MindStudio,以及為大家進行開發者支援的昇騰社群。這個體系,涵蓋了從底層的硬體到中間的軟體平臺到解決方案,再到行業應用、開發體系的一整套體系。在這個體系裡,合作伙伴可以充分利用不同層的開放能力打造AI 最終產品。
華為Atlas 資料中心解決方案為大家提供了不一樣的價值,主要體現在:第一,我們有超級的算力。AI 是非常消耗計算能力的體系,華為有自研的達芬奇框架可以提供最強的AI 計算;同時提供極致的散熱技術、更優的能效比;也有端邊雲的協同設計,不管是在端側邊還是雲端,一次開發可以多次部署管理,並且整個軟硬體體系是開放的,能夠使能夥伴做到開放應用。當然我們的端到端安全可信,安全作為第一要求根植在所有系統裡。透過這樣的體系,提供了用得起、用得好、用得放心的資料中心AI 的解決方案。
剛給大家分享了達芬奇架構,很多人要問既然AI 這麼消耗計算能力,那麼如何去滿足它?這一代AI 計算的特點,90% 以上都是矩陣的相關計算,或者說張量相關運算。這些張量的相關運算實際上有特定的模式,華為設計了針對於張量計算的底層核心,叫做達芬奇核心。達芬奇核心的計算單元被稱之為立方體,Cube 這樣的一個計算單元,可以在每個時鐘週期裡處理4 096 個資料的乘累加。
對比傳統的計算模式, 不管是CPU 還是GPU,華為的達芬奇計算架構是專門為AI 計算所設計的晶片架構。在整個架構中,不僅有立方體的Cube 單元,而且還有針對向量計算的Vector單元和針對標量計算的Scalar 單元,這幾種單元協同配合,能夠高效完成整個AI 計算。此外,在計算效率高的同時晶片面效比更強,對比業界的架構,可以具有兩倍的面效比,所以能夠提供高效率的AI 計算過程。基於強大的達芬奇核心,構建了資料中心的訓練卡和推理卡,這些卡是基礎單位,是我們設計中心的底座,訓練主流模型最大吞吐領先業界三倍。我們也預置了影片預處理單元,大幅度提升影片解碼能力。
訓練伺服器有極致能效的體系。為打造更優能效,華為提供了大量的底層核心技術和混合液冷設計,晶片降溫,前皮膚蜂窩狀開孔。我們的風扇設計等,使得Atlas 800 訓練伺服器能夠達到業界最高的計算密度。
Atlas 900 叢集基礎單元,具有業界最高的能效比。在一個機櫃裡可以提供超過20 P FLOPS,也就是20 千萬億次每秒的計算能力。它的最大功耗只有43 千瓦時,這些都是極致的效能體驗。基於上面的技術,我們打造了業界首個AI 叢集,900 AI 訓練叢集的PUE 小於1.1,並且它的單櫃散熱能力、機櫃數量和總能耗在相同情況下的對比,都是業界最領先的。這樣的一個叢集,它能夠非常高效地完成複雜的AI 計算任務。
透過以上一些技術,華為Atlas 的資料中心人工智慧解決方案在同等算力之下,投資成本更低,我們的資料中心總功耗比別人要節約很多;同等算力,電費節省可以到60%,並且算力密度更高,同等算力的機櫃數可以節省超過80%。對比而言,在這樣的一個體系裡,華為提供了具備競爭力的解決方案,不僅有核心的硬體系統,還提供深度學習的軟體平臺和開放生態的參考架構。
華為自有深度學習平臺參考架構。這些參考的框架,能夠讓大家基於我們的計算底座,快速便捷地開發大量的 A I 應用,方便夥伴和客戶定製開發。我們提供了高效能的技術核心元件,並且是定向開放程式碼。同時我們的參考架構也支援一站式的訓練和推理,支援高效能的訓練排程,支援邊緣協同的基礎設施。基於雲端訓練,邊緣推理的模式,我們可以實現邊雲協同的AI 演算法模型,從釋出更新推送整個閉環都可以在一個體系裡,並且支援平滑相容,方便應用。
這是異構計算的資源的統一排程,以外掛化的形式支援整個計算資源的排程能力,並且基於基礎設施的對接,提供旁掛式附件;不僅有資料中心,作為新基建的基礎設施,還要提供端邊雲協同一體化的體驗和部署能力。
我們在中心側持續訓練,可統一推送至邊緣推理。開發的演算法和應用模型,可以透過端邊雲的協同體系,高效推送到邊緣側,甚至是裝置端成千上萬及更多的大規模系統裡。可以想象一下,在整個的生產系統裡有無數的機器人,可以在一瞬間讓它們學習到新的能力,並且把這個能力推送至機器人裡。這個體系上建立了統一的開發、運維一整套體系,並且提供超級的安全通道,針對所有傳輸進行安全加密,對比業界提供的這樣的一個體系,我們的管理系統節點更多。我們的資料倉儲、模型倉庫提供業界開源開放的主流一系列模型,幫助大家快速使用AI 一些能力。現在很多人開玩笑說,AI 一直在調參。我們提前把調參的工作給大家做好,省去了調參的麻煩。
同時華為提供了開源的框架叫做MindSpore,它是一個自上而下的全棧自主可控開源開放框架。該框架具有非常多的友好特性,具有微分、自動並行、自動調優的技術,開發程式碼量可以減少20%,效率提升50%,面向昇騰晶片進行了專門的最佳化,所以在執行期也是非常高效的。我們有大量的底層最佳化演算法,包括圖、運算元,編譯過程的加速和神經網路的並行執行。協同昇騰晶片可以實現1.6 倍的效能優勢,並且部署也非常靈活。我們可以全場景按需協同,透過自適應部署技術,實現從終端裝置到雲端的靈活部署。模型可大可小,並且整個MindSpore 是開源的,大家可以在網站上下載完整程式碼,可以支援進行更多的開發。我們把這樣一套優秀的框架貢獻給開源社群,奉獻給整個社會。
我們內部有一句標語叫做自己的降落傘自己先跳,華為要驗證自己的技術,所以內部的系統也大量開始使用自己的AI 解決方案。華為有大量的AI 任務,這些任務已經開始大量使用華為自己的AI 解決方案進行一些提升智慧水平,提高效率,包括產品和解決方案、自動駕駛相關技術和產品、諾亞方舟實驗室、媒體處理、智慧手機、伺服器、網際網路絡、基礎設施,大量的體系都在使用華為Atlas 的智慧解決方案。華為雲大量的基於昇騰的解決方案,提供雲服務,所以可以看到在華為體系內部,鯤鵬加昇騰構建出來的華為數字底座。我們在三年的時間裡有10 萬以上的裝置在可靠執行中。這樣的數字底座我們把它貢獻給整個社會,希望能夠大規模提升整個社會的智慧化執行水平。
上面給大家分享了整個技術體系解決方案的軟硬體介紹。接下來再給大家分享一下成功應用案例。
在華為松山湖的生產中心,我們的人工智慧開始在“人工智慧製造人工智慧”,這是一個帶點玩笑的話語。但在我們的製造產線上,Atlas 已經開始被應用到Atlas 的製造裡。在質檢的過程中,全面使用華為自己的Atlas 製造體系這句話說的有點繞,就是我們的人工智慧已經開始參與制造自己。我們可以暢想一下可能在未來人工智慧可以自我複製的時候, 是否這就會造成一個真正的智慧社會到來。簡單說一下,以質檢環節為例,準確率由原來的90% 提高到現在的99.9%。我們知道,質檢在整個生產製造的過程中消耗了大量人力,而現在使用華為的AI 系統可以快速高效的完成,並且AI 系統是能夠兼顧傳統基建與新基建的基礎設施,透過雲邊協同、資料中心,我們模型實施訓練中心,邊緣系統實時進行升級,極大地提高了製造業的生產效率。
另外一個實際的案例是助力德陽綜合分析平臺的建設。現階段整個社會安全依賴於前端接入的各種資料影像分析,這些分析之前也要消耗極大的計算能力。華為提供的資料中心解決方案和邊緣側的智慧邊緣解決方案這樣一個平臺,把整個資料影片結構化的效率提升了60%。這也非常感謝合作伙伴,提供了非常優秀的分析平臺。
再有就是一個巨大的超級人工智慧計算基礎設施,鵬城實驗室肩負著實現國家使命的創新技術平臺。透過使用華為的Atlas 資料中心的解決方案,能夠達到E 級的AI 算力。這樣的算力相當於50 萬臺PC 的計算能力,並且我們提供了強大的通訊網路,在這麼多的計算單位上,我們的HCCL 集合通訊系統,支援超過100 TB 的無阻塞引數面的組網,再加上極致能效,這樣的一臺超級強大的AI 大腦能夠應用在自動駕駛、智慧醫療、語音識別、自然語言處理等AI 業務上。
之前,各位專家講到的應用都可以充分地利用華為提供的計算能力。大家可以想一下,有了這麼強大的AI 計算叢集,我們可以做出來什麼有意思的AI 業務。講一個非常有意思的案例,我們透過Atlas 900 這個叢集系統,幫助上海天文臺極大地提升了對宇宙探索的效率。之前,我們要分析這樣一個每年產生大約600 PB 資料,專家手工分析需要169 天,現在使用Atlas AI 叢集只需要10 秒鐘就可以完成。在這個複雜的處理任務上,Atlas900 叢集取得了非常好的成績。
現在大家非常喜歡的網路直播,Atlas 支撐虎牙進行AI 業務雲上的部署,整個投資額降低了30%,並且它的效果得到了提升。透過基礎設施、AI 資料中心,可以為各行各業提供非常好的效果。AI 不僅可以用在應用裡,也可以運維AI,使用AI 可以極大地節約能耗,高效地預測可能發生的問題。我們還有機器人的智慧巡檢,出現了自動識別、聲音檢測、裝置異常識別一整套AI 體系,來確保能夠高效率執行。每年我們用AI 來運維AI,節約電費近千萬元。
在這裡,我希望把數字世界帶入到每個人、每個家庭、每個組織,構建萬物互聯的智慧世界。華為作為智慧世界基礎底座的提供者,幫助大家一起來構建美好的AI 時代。
https://blog.csdn.net/weixin_42137700/article/details/108663042