「寒武紀在訓練領域的低精度整數運算實現了關鍵性突破,這會是AI晶片領域的重大訊息。長久以來,低精度計算的速度和能耗比優勢備受業界關注,但迄今為止尚未有同類產品出現。」
撰文 | 四月
「初創公司要貿然打入雲端市場,簡直就是自尋死路」。
很長一段時間裡 ,雲端的資料中心市場被視為創業公司的禁地,因為英特爾、英偉達、AMD 等巨頭林立,競爭太過凶殘。
但近年來,雲端計算勢不可擋,雲端晶片市場呈現爆發式增長,不乏勇者前來破局。
作為一家發源於中科院計算所、背靠多家「國字輩」資本、估值已經來到 30 億美金的硬核創業公司,寒武紀挑戰雲端市場的底氣十足。
2018 年 5 月,寒武紀釋出首顆雲端 AI 晶片,並對外透露獲得中國前三大伺服器浪潮、聯想、曙光的訂單。據機器之心瞭解,滴滴也已經成為寒武紀的客戶。
與此同時,寒武紀成數億美元 B 輪融資。據機器之心瞭解,目前寒武紀的估值約為 30 億美元,與今年 2 月完成 6 億美元融資後成為「全球最具價值的 AI 晶片公司」的地平線不相上下。
一年後,寒武紀二代晶片已經箭在弦上,這顆積蓄了中科院計算所研發實力四年之久的二代或將為行業帶來不小震盪。
機器之心獨家獲悉,寒武紀二代雲端晶片或將於本月公佈,同時我們採訪到寒武紀技術研發相關知情人士、寒武紀雲端晶片客戶等多方信源,提前揭祕關於該顆晶片的細節亮點和核心技術。
這回有了中文名
據機器之心瞭解,寒武紀二代雲端 AI 晶片代號為「MLU270」,延續上一代晶片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武紀已經為旗下晶片註冊兩大中文商標名,分別是「思元」、「玄思」。綜上,寒武紀二代雲端 AI 晶片中文名為「思元 270」。
在今年的新品議程表上,雖然還名列有其他晶片,但「思元 270」及其板卡將會是重頭戲。這也表明寒武紀將從終端向華為等品牌商授權 IP 的模式,轉向主打雲端市場的晶片方案提供商。
在晶片架構方面,寒武紀二代晶片將從上一代的「MLUv01」升級為「MLUv02」。考慮到視訊資料正呈現爆炸性增長,成為資料中心的任務主流,寒武紀在「思元 270」裡內建視訊解碼單元,瞄準海量的視訊處理市場專門配置。
據機器之心瞭解,寒武紀「思元 270」在今年年初研製成功,製程工藝方面明顯拋棄了此前終端市場的激進打法,選擇仍然沿用臺積電 16nm 工藝,定位於「專注雲端訓練計算」。
對比兩大巨頭的主流雲端產品線,英偉達去年 9 月釋出並已發貨的 Tesla T4 採用 14nm 工藝,AMD 去年 11 月釋出的 Radeon Instinct MI60 和 MI50 採用 7nm 工藝,寒武紀這次似乎希望單純依靠技術路線取勝,不再如去年對於 7nm 工藝寄予厚望。
「讓英偉達難受」
在晶片效能方面,「思元 270」的效能引數有意向業界標杆英偉達 Tesla T4 看齊。
據機器之心目前瞭解到的情況來看,「思元 270」可支援 INT16/INT8/INT4 等多種定點精度計算,INT16 的峰值效能為 64Tops(64 萬億次運算),INT8 為 128Tops,INT4 為 256Tops。
對比 Tesla T4,FP16 的峰值效能為 65 Tops,INT8 為 130 Tops,INT4 為 260 Tops。
功耗方面,「思元 270」功耗為 75w,與 Tesla T4 持平。
但值得注意的是,這些「理論峰值」不過是紙面規格,真正實測水平相比理論峰值通常有一定縮水。據某大體量計算資料中心負責人,同時也是阿里雲早期核心技術研發人員李立表示,「T4 在實測過程中,75w 功耗維持不了多久就降一半頻率。」
據該負責人介紹,他在幾個月前已經拿到「思元 270」的具體規格和特性,「對比而言,第一代 MLU100 是試水,第二代 270 就聚焦多了,威力非常大,NV 後面會很難受。」
與此同時,該負責人還指出,「寒武紀的方案在某些領域可能不會特別好使,尚待觀察。」
核心技術解密
在「思元 270」的效能引數展示上,可以看到寒武紀有意強調其整數計算效能方面的優勢。據接近寒武紀技術研發的知情人士王一表示,正是寒武紀在訓練領域的低精度整數運算實現了關鍵性突破。「那將會是 AI 晶片領域的重大訊息,因為低精度計算的速度和能耗比優勢一直受到業界密切關注,但迄今為止尚未有同類產品出現。」
這裡需要引入一對運算表示法的概念,整數運算(定點運算)與浮點運算。
它們是計算機計算中最為常用的兩種運算表示法,顧名思義,其差異就體現在整數和浮點上,加減乘除運算都是一樣的。
整數表示法,即所有位都表示各位數字,小數點固定;浮點表示法,則分成兩部分,階碼和尾數,尾數就是數字部分,階碼錶示乘冪的大小,也就是小數點位置。所以浮點數在做運算的時候,除了對尾數做加減乘除,還要處理小數點位置。
基於兩種不同的運算表示法規則,導致面對同樣長度的整數和浮點運算,後者計算模式更為複雜,需要消耗更多的資源去處理,並且二者功耗差距通常是數量級的。簡單來說,就是浮點運算佔用的晶片面積和功耗相比於整數運算器都要大很多倍。
但浮點運算又有其不可取代性。首先,定點表示法運算雖然直觀,但是固定的小數點位置決定了固定位數的整數部分和小數部分,不利於同時表達特別大的數或者特別小的數,可能「溢位」。
而浮點的精度雖然沒有定點大,但是浮點運算的小數點位置可以移動,運算時不用考慮溢位,所以科學計演算法一般都使用浮點。所謂「溢位」,指超出某種資料格式的表示範圍。
此外,具體到使用 GPU 做訓練,業界通常更傾向於浮點運算單元,主要是因為在有監督學習的 BP 演算法中,只有浮點運算才能記錄和捕捉到訓練時很小的增量。由於訓練的部分模組對精度要求比較高,所以通常必須是高精度的浮點運算,比如 FP32 才能搞定,FP16 都難。
綜上,雖然浮點運算相比定點運算在功耗、計算速度、價效比等方面都不佔優勢,但截止目前,浮點計算在雲端的訓練場景中仍具有不可替代的特性,並且以高精度運算為主。
那麼,如何在不增加晶片面積和功耗的前提下,如何大幅提升晶片做訓練的運算能力就成為雲端訓練晶片的主要研究課題之一。
參考計算過程相對簡單的推斷計算思路,目前該領域的 AI 晶片多采用整合大量整數運算器或低精度浮點運算器。
面對計算過程更為複雜的訓練計算,業界一直在嘗試是否可能用價效比更高的定點運算器實現。「但這個問題在學術界也還沒有普適的解決方案。」王一說道。
李立表達了類似的觀點,目前大家的研究熱點之一,就在於如何全部的定點單元(比如 INT8)代替浮點單元,或者以主要的定點單元配合少量的高精度浮點計算單元(比如 FP32)做更多的訓練任務,目的是達到定點計算的快速度,同時實現接近高精度浮點計算的精度。
談到目前該方向的研究成果和代表論文,李立表示,行業相關的研究文章已經有一些,不過都不具有普適性。
王一進一步向機器之心透露了關於實現低精度運算的「關鍵心法」,要做好低精度訓練,就要找到一個好的資料表示方法,既能表達最後大的數,又能讓 0 附近的小量能夠更好地表達,因此這個資料表示可能需要有自適應性,能隨著訓練的過程調整。
他還補充,「低精度訓練確實未必要是浮點數,只要能把數域表達好,0 附近的小量表達好,什麼樣的資料表示都可以。」
綜上,寒武紀在大幅度提升訓練階段的計算功耗比方面,很有可能採用的是以整數為主的低精度運算,這在目前已公佈的 AI 晶片專案中屬於首創。
實際上,寒武紀在計算機計算領域的開創精神和技術積澱由來已久。早在 2014 年—2016 年期間,寒武紀創始人兼 CEO 陳天石、陳雲霽兩兄弟的研究就基本奠定了神經網路晶片的經典設計思路,也就是現在常談到的 AI 晶片架構。
當時他倆的「DianNao 系列」論文橫掃體系結構學術圈: Diannao(電腦)是 ASPLOS'14 最佳論文(亞洲第一次),DaDiannao(大電腦)是 MICRO'14 最佳論文(美國以外國家的第一次)……
而在大洋彼岸,美國兩家風頭正勁的 AI 晶片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列論文的基本思路,採用大量堆疊的簡單計算單元以實現複雜的雲端計算。(機器之心曾進行過相關報導,《一款晶片訓練推理全搞掂,Hinton 為其背書,Graphcore 完成 2 億美元融資》、《30 年前的「CNN 夢」在這顆晶片落地,能效比高出 Tesla10 倍 | CES 直擊》)
此外,要切資料中心市場的蛋糕,一套完備成熟的軟體生態也是其核心競爭力的重要體現。英偉達之所以能夠在雲端訓練領域成為絕對主流,其 CUDA 軟體生態的基礎功不可沒。
據機器之心瞭解,寒武紀從 2016 年起逐步推出了寒武紀 NeuWare 軟體工具鏈,該平臺終端和雲端產品均支援,可以實現對 TensorFlow、Caffe 和 MXnet 的 API 相容,同時提供寒武紀專門的高性庫,可以方便地進行智慧應用的開發,遷移和調優。
到今年,該軟體工具鏈進行了哪些層面的迭代值得關注,比如是否可相容更為流行的框架 Pytorch 等。
「雲芯」之爭一觸即發
儘管前述了寒武紀的種種硬核技術護體、大資本和客戶加持,但想要真正在資料中心市場紮下根,以實現陳天石去年在釋出會上談到的目標:到 2020 年底,力爭佔據中國高效能智慧晶片市場的 30% 份額,仍然面臨著異常殘酷的市場競爭。
整體上,英特爾在資料中心伺服器晶片市場仍然牢牢佔據著的 95% 以上份額。
而隨著深度學習計算和人工智慧技術逐步興起的雲端訓練市場,同樣被巨頭絕對壟斷。目前 90% 以上的雲端加速採用英偉達 GPU,AMD、FPGA 佔據非常小的份額,剩餘市場還在被國內外晶片創業公司不斷瓜分。
據機器之心瞭解,近期還有一家國內知名 AI 演算法公司將要入局雲端推理晶片市場。據德勤最新出爐的報導顯示,到 2022 年,全球人工智慧訓練市場的規模將達到約 170 億美元,雲端推理晶片市場的規模將達到 70 億美元。
可以預見,2019 年,AI 晶片之爭將從端燃及雲上,雲端的大體量、高增速市場勢必迎來更多強勁玩家。
(應採訪者需求,文中李立、王一均為化名。)