首顆端晶片採用開源架構 RSIC-V,雲晶片 Ali-NPU 或將於今年晚些時候公佈進展。
「2019 年將會是雲端計算市場的重要拐點」,阿里巴巴集團 CTO、阿里雲智慧總裁張建鋒以「拐點」拉開阿里雲峰會上海站的序幕。
基於 Gartner 增長曲線,技術的發展從啟動萌芽到逐步增長將經歷一個重要拐點,跨過拐點後將會出現爆發性增長。
張建鋒之所以給出「拐點」的預判,來源於 IDC 的一份重要資料——2019 年,雲端計算市場份額首次超過 50%,意味著雲服務商採購的基礎設施首次超過了傳統的資料中心。基於雲端計算的發展特性,後續將有望迎來更大增速的機遇。
為更為有效地把握此次機遇,張建鋒對於「阿里雲」的內涵提出了完整的梳理和定義。圍繞雲端計算上下游鏈條探索,阿里釋出首顆自研端智慧晶片——自去年 9 月阿里宣佈成立平頭哥獨立晶片公司後,外界頗為關注的進展和成果。此外,阿里還迎來了新面孔,AI 深度學習框架領域的重要貢獻者賈揚清首次以「阿里」人的身份亮相。
平頭哥首顆晶片「成果」
2018 年 4 月,阿里巴巴集團宣佈,公司研發部門達摩院正研發一款神經網路晶片「Ali-NPU」。同年 9 月,阿里巴巴成立獨立晶片企業,馬雲賜名「平頭哥」,由阿里內部的晶片業務與外部收購而來的中天微系統有限公司整合而成,阿里全資控股。
今天,阿里巴巴集團副總裁戚肖寧宣佈,平頭哥首顆端智慧晶片玄鐵 910 釋出,「玄鐵」取自金庸小說、楊過手裡的神劍之名。玄鐵 910 採用高效能 RISC-V 架構,採用 12nm 製程,主頻 2.5GHz,7.1Coremark/MHZ(世界公認的 BenchMark)。
架構上,玄鐵 910 採用 16core 結構,12 級亂序流水線,並行 3 發射 8 執行 2 記憶體訪問,最大支援 8MB 二級快取,AI 增強的向量計算引擎。
在效能表現上,玄鐵 910 較主流的 RISC-V 指令效能提升 40%,較標準指令提升 20%。戚肖寧介紹,這源於平頭哥體系架構、指令系統、系統優化,以及中天微十餘年的量產經驗而達到的整體效果。
該顆晶片適用於用在 5G、網路通訊、人工智慧、自動將駕駛領域,可嵌入 CPU、SOC 晶片中。
活動現場,戚肖寧還發布「普惠晶片」計劃釋出,表示將開放高效能 IP 核,降低進入高效能 CPU 的門檻,通過 DSSoC 平臺賦能和客戶一起創造應用落地。
據機器之心瞭解,阿里的晶片研發團隊目前已經將近兩百餘人,分設於上海、美國兩地,去年對外公佈為數十人,一年時間裡發展迅速。
杭州中天微系統有限公司成立於 2001 年,是一家致力於 32 位高效能低功耗嵌入式 CPU 研發,以晶片架構授權為核心業務的積體電路設計公司。其 CPU 應用於物聯網智慧硬體、數字音視訊、資訊保安、網路和通訊、工業控制、以及汽車電子等多個領域,全球累計出貨超過 7 億顆晶片。
中天微自主智慧財產權的 32 位 C-SKY 系列嵌入式 CPU 核,具有低功耗、高效能、高程式碼密度,以及易使用等特點。由於中天微在 CPU 核心架構研發上的深厚積澱,它被視為「大陸唯一大規模量產的自主嵌入式 CPU IP Core」。
張建鋒曾表示「收購中天微是阿里巴巴晶片佈局的重要一環」,IP Core 是基礎晶片能力的核心,進入 IP Core 領域是中國晶片實現「自主可控」的基礎。
此次架構中採用的 RISC-V 是一種免費開源指令集架構 (ISA)。由加州伯克利分校的研究團隊開發與公佈,於 2011 年 5 月正式釋出第一版。該指令集設計非常簡單,採用了基礎指令集與擴充套件指令集的方式,基礎指令集只包含了不到 50 條指令。
「RISC-V 可能真正能成為國產的自主的指令集架構。」RISC-V 技術領袖、芯來科技 CEO 胡振波在接受媒體採訪時談道,RISC-V 作為免費的架構,將會和 ARM 產生競爭。在手機等傳統 ARM 的壟斷領域會保持強勢存在,在一些新興的邊緣領域,比如 IoT、AI、邊緣計算領域,RISC-V 將具有爆發空間。
據此前介紹,平頭哥公司將做兩類晶片,一是雲端的神經網路晶片 Ali-NPU,類似於谷歌的 TPU(張量處理器),用於 AI 推理;二是嵌入式晶片,用於物聯網終端。
阿里做晶片,其優勢在於可以將產品直接用在公司運營中,並且對這些場景足夠了解。
而在此之前,阿里廣投晶片企業,注資了不少新興的晶片企業,加碼晶片競爭。2018 年 6 月,國內 AI 晶片企業寒武紀科技宣佈完成數億美元 B 輪融資,原股東阿里巴巴創新投跟投。寒武紀的發展思路也是雲端一體,與平頭哥的定位類似。此外,阿里巴巴創業者基金還投資了美國終端 AI 晶片商耐能(Kneron)。
目前,阿里的嵌入式晶片已經發布,而云端的神經網路晶片 Ali-NPU 的進展同樣值得關注,並且將為阿里雲業務帶來更為直接的推進和影響。據機器之心瞭解,該顆晶片或將於今年晚些時候公佈進展。
Ali-NPU 基於阿里機器智慧技術實驗室等團隊在 AI 領域積累的大量演算法模型優勢,根據 AI 演算法模型設計微結構以及指令集,以最小成本實現最大量的 AI 模型演算法運算。
按照設計,阿里巴巴的 Ali-NPU 效能,將是目前市面上主流 CPU、GPU 架構 AI 晶片的 10 倍,而製造成本和功耗僅為一半,價效比超過 40 倍。未來,Ali-NPU 的能力,不僅可以更好地滿足視訊、影像處理需求,還可以通過阿里雲進行計算能力的輸出,賦能各行各業。
阿里雲的時代機遇
為更為有效地把握此次機遇,張建鋒對於「阿里雲」的內涵提出了完整的梳理和定義,「阿里雲提供的不僅僅是雲端計算技術本身,而是『新』技術的綜合」。具體來看,『新』技術包括三類,雲端計算、大資料技術、智慧化技術,同時與當下的移動化技術結合構成阿里雲的新內涵。
三年前,馬雲提出「五新」,認為這五個「新」將會對各行各業發動巨大的衝擊和影響,「新技術」就是其中之一。張建鋒給出了自己的理解,「大多數技術方向都是嶄新的,但我們認為的』新』更關注其形成的趨勢,為新技術投資能夠站在世界的前沿。」
針對雲端計算技術而言,對比傳統 IT 系統,體現出成本、穩定性、安全性、效率等多重優勢。
在成本層面,雲端計算設施的成本投入可大幅降低,通過供應鏈、部件、網路的優化,可降到傳統 IT 中心的一半。
在穩定性層面,阿里雲通過實現預測技術進一步提高準確率和穩定性,核心部件在出現故障以前可預測並處理。此外,雲端計算廠商通常更早先於廠商發現漏洞,修復漏洞,阿里雲目前每年修復上百萬個漏洞。相比傳統 IDC 系統,雲的安全性可高出 1-2 個數量級。
基於雲端計算的統一調動模式,調動效率可提升 3 倍。總體來看,「雲具備碾壓式的優勢,具備大規模運維的可能。」張建鋒提到。
阿里雲之上,在張建鋒看來,「飛天雲作業系統」是阿里雲十年來的集大成之果,阿里將其定義為「中國唯一的自主研發的雲作業系統」——「從創立之初,每一行程式碼都是自己寫的」。系統採用開放的標準,開源相容的搭建邏輯,建構了百萬臺叢集,成為國內最大規模的基礎設施平臺之一。
要實現資料智慧,資料中臺是最佳的實現方式,基於「飛天雲作業系統」,阿里還搭建了「飛天大資料平臺」和相應的計算引擎,可實現單日資料處理量 600+PB。(PB 是資料儲存容量的單位,它等於 2 的 50 次方個位元組,在數值上大約等於 1000 個 TB。)
阿里的計算引擎包括離線和線上兩個部分,比如淘寶首頁的個性化推薦,涉及到 20 億商品,數億使用者,計算量極大,可採用離線模式基於個人興趣的事先定製好的;而搜尋結果,則需要海量資料的實時化計算。
眾所周知,阿里很早就開始踐行了「中臺」戰略,利用「業務中臺」,實現盒馬鮮生、釘釘、飛豬等創新業務前端部門通過平臺的產品技術模組迅速搭建。而「資料中臺」則打破了不同業務部門之間的煙囪式 IT 架構,打通資料孤島,帶來了持續的高效創新。目前「中臺」戰略已經成為諸多大型網際網路公司的借鑑思路。
關於平臺和中臺的邏輯關係,張建鋒談道,「在平臺之上是中臺,平臺提供能力,中臺是方法,既要有能力,也要有方法。」
張建鋒還談道,基於資料來重構業務流程和業務邏輯對於每一家公司來說,都至關重要。至於阿里,通過資料中臺實現了阿里巴巴集團級的業務協同,涉及超過 25 個事業部、300 個業務單元。此外,要實現從管理決策到智慧決策,大量的業務流程要從前置思維變為後置思維。
智聯網也是阿里重點佈局的方向之一,物聯網將萬物連線起來,而如今大部分連線的物體具有智慧功能,於是智聯網 AIoT 成為物聯網的發展方向。
在該方面,阿里已經做了不少工作,包括自研高效能雲端 AI 晶片,效能提升 10 倍;豐富的端側生態,可支援 100 種感測器,支援 200 晶片模型;雲端一體化的智慧平臺,包括 300 種行業演算法模型,產業 AI 10 個行業大腦。
綜合來看,飛天作業系統、飛天大資料平臺、阿里巴巴雙中臺、智慧網 IoT 將成為阿里「all in cloud」的四張王牌。
面向 AI 初創的阿里雲
把握時代機遇,阿里迎來了新面孔。
賈揚清首次以阿阿里巴巴集團副總裁,阿里雲智慧計算平臺事業部總裁身份亮相。作為 Caffe、Pytorch 的重要貢獻者之一,賈揚清深受 AI 開發者認可,他曾任 Facebook AI 架構部門總監,負責前沿 AI 平臺的開發;今年三月轉戰阿里,繼續為阿里雲的大資料及 AI 的產品與工程研發貢獻力量。
活動現場,賈揚清分享了矽谷高精地圖創業公司 DeepMap 採用阿里雲研發及構建業務系統的案例。
DeepMap 採用「眾包」形式,讓客戶的自動駕駛汽車作為地圖資料採集的測繪車,通過演算法解決地圖精度問題,從海量感測器資料到高精地圖解決方案中,DeepMap 使用大資料計算和 AI 加速了業務的創新。
基於業務的海量感測器資料特點,比如,汽車每行駛 100 公里,採集到的資料量將達到 3TB 涉及,數十種感測器,對於系統和平臺提出挑戰。於是,DeepMap 在創立之初就選擇了雲端計算,這同時也是當下新型網際網路公司的主要特點。「新型網際網路公司從第一天起就是基於雲來做,這為他們提供了反超的可能。」張建鋒談道。
在阿里雲提供的解決方案中,涉及資料、儲存、計算、開發、部署等全套流程。比如,將道路汽車、交通訊號、邊界線等各種結構化和非結構化資料分別儲存在 RDS PostgresSQL、EMR、OSS 等不同型別資料庫裡,其中 SparkSQL on OSS 比開源實現快 2.3 倍,並通過冗餘、多副本、儲存日誌等措施實現儲存、讀取安全可靠穩定性。
然後,基於資料庫和計算平臺和計算引擎的無縫打通,資料通過大規模 GPU 加速叢集、機器學習 PAI 平臺進行分析和處理,迅速挖掘出價值。
賈揚清強調,除了軟體的支援,雲上的更大優勢體現在軟硬體結合,傳統 IT 方案從開發到部署通常是解耦的方式,通過阿里雲的方案可實現從開發解鎖到部署環境一致性,通過 K8S 工具平臺更好地迭代,一鍵式全球部署。
隨著雲服務成為 IT 行業的最大場景,大型雲廠商也將重塑上下游鏈條。在國際市場,巨頭公司亦先後加入晶片研發以擺脫晶片製造商牽制。
放眼全球,Facebook、谷歌、蘋果、亞馬遜等美國科技巨頭均投入 AI 晶片的研發和不久。谷歌已將自主研發的 AI 晶片 TPU 應用於加速搜尋、翻譯、相簿等功能。2018 年 2 月,亞馬遜開始設計製造 AI 晶片,計劃應用於雲端攝像頭、Echo 揚聲器等以服務智慧家居硬體市場。同年 4 月,蘋果宣佈正在開發 Mac 電腦定製晶片,將於 2020 棄用英特爾,導致英特爾股價暴跌 9.2%。國內百度曾公佈面向雲端的人工智慧晶片專案「崑崙」。
據機器之心瞭解,阿里和騰訊還同時正在研究量子晶片,為人工智慧提供無限計算能力。