本文首發於:Xilinx學術合作,作者:姚頌,原深鑑科技聯合創始人。深鑑科技曾為國內AI晶片獨角獸,此前專注於以FPGA實現人工智慧落地,2018年7月18日,被FPGA開山鼻祖賽靈思收購。
2019年8月19日到21日,第31屆Hot Chips大會在史丹佛大學成功舉辦。從2016年開始,這是我參加的第四屆Hot Chips。在之前的三屆Hot Chips,有兩次我作為演講者參與(2016年與2018年),有一年作為展商參與(2017年),這一次是第一次沒有任何任務來參加Hot Chips,終於可以安心地聽取報告、進行學習。而在之前Hot Chips TPC meeting剛結束時,已經從幾位技術委員會的成員那裡聽說今年的競爭異常激烈,Xilinx的同事Ralph Wittig更是評論,這一屆Hot Chips的論文質量是他覺得過去十年中最好的,讓人不由得對本次Hot Chips充滿期待。
本次大會確實是有非常多非常紮實的工作,也展現了整個處理器與高效能晶片領域行業的趨勢與變化。本系列文章將介紹我在Hot Chips大會上的幾點觀察與思考,涵蓋以下幾點內容:
- Cerebras其實是在幫大家追求心中的夢想,祝福,但也存在挑戰;
- AI仍是主角,但AI晶片設計已經不是主角,從一個新穎的話題變為了成熟的工程;
- 異構是大勢所趨,無論賽靈思還是英偉達,都在持續前進;
- 安全是一個越來越重要的話題;
- FPGA在各種不同應用中扮演著重要角色;
- 積體電路工藝演進:未來越來越難,但一定會有突破。
文章也將介紹一些Hot Chips會議上發生的趣事。未經特別說明,圖片均來自於本人在Hot Chips拍攝的照片,PPT版權由原報告人所有。
本文先從大家最為關注的Cerebras開始說起。
一、Cerebras:會議最大熱點
本屆Hot Chips最大的亮點,毫無疑問是Cerebras的wafer-scale engine (WSE)。我們通常的晶片,一片wafer可以切出幾十到上萬片不等的晶片,而為了追求極致的效能、最大的片上儲存,Cerebras選擇了一條極端的路線,讓整片wafer就是一片晶片。當Cerebras的聯合創始人Sean Lie拿出樣品實物的時候,會場裡響起了掌聲,這也是本次大會唯一一次不是在報告開始與結束時候禮節性的掌聲。
WSE晶片,由12x7=84個die組成,共有40萬個為深度學習最佳化的計算核,片上儲存達到了驚人的18GB,超過了很多電腦的記憶體大小。這樣一顆晶片,在我眼裡是有特殊的美感的:如同看到長城和金字塔,這樣在技術水平極其低下時,似乎人類無法實現的傑作;也如同看到了蒸汽朋克電影中的龐然大物,復古而雄偉;又如同最為精密和複雜的機械錶,無數精巧的結構讓人感嘆。這是在大的正規化沒有改變的情況,當前工程技術可以做到的極限了。
Cerebras的報告是極少數全篇沒有任何效能數字的報告,只有一句話“It’s working”。這樣一篇論文能夠被Hot Chips錄用來進行報告,足見其受到的關注和重視。而我個人有一個習慣,除了認真聽別人說做了什麼,更會去想他們沒說什麼。 而在這次,他們只說了“It’s working”,而並沒有說“It’s working well”,也許就是在暗示些什麼。
Cerebras的WSE晶片仍然是有非常多待解決的問題的:
(1)這樣一片晶片,儘管做了很多的容錯設計,其良品率怎樣,仍然是一個疑問;
(2)傳說中15kw甚至50kw的功耗,怎樣去實現良好的散熱;
(3)整個晶片由12x7個die組成,die之間的通訊是與臺積電聯合研發的新型工藝,其效果如何。
這樣許許多多的問題,都值得追問下去,而在報告現場,儘管PPT上有相關的頁來闡述是用怎樣的思路來解決,但是Sean基本上是一帶而過,沒有介紹任何細節,這也不由得不讓人猜測,在這些地方,可能仍然存在著非常多的技術問題需要解決。
對於我個人來說,我非常佩服Cerebras的CEO Andrew Feldman這樣一位有魄力、有遠見的成功的連續創業者:他曾經做過四個公司,都以上市或者併購成功退出。我也非常佩服包括Sean Lie在內的Cerebras的工程師,勇於挑戰最極致的技術路線。任何一條技術路線走通都非常不容易,希望Cerebras能夠一個一個解決路上的技術難題,這不僅僅是Cerebras一家公司的事情,也是所有有技術信仰的晶片行業工程師與研究者的共同心聲——大家沒有機會和財力去做這樣一件激動人心的事情,希望你們能做好!
二、AI晶片從火熱到理性
Cerebras是本次報告最大的亮點,也是被大家關注最多的“AI晶片”的代表。然而,實際上本次大會,AI晶片的設計本身,已經不是被大家關注的重點了——更進一步說,實際上從2017年到現在的兩年間,純數位電路的AI晶片的發展已經幾乎停滯了,除了sparsity和low-bit(比如1bit網路,或者tenary網路),在AI晶片,很少聽到新的題材了。
本次大會特斯拉的報告,也充分體現了這一點:許多人最開始對於特斯拉的報告“Compute and redundancy solution for Tesla’s Full Self driving computer”充滿期待,因為這是少有的可能能介紹完整自動駕駛系統設計的報告,而結果卻令人失望:整個報告花了80%的時間,在介紹底層架構怎樣設計,卷積計算的流程如何,指令集如何設計,pooling單元如何設計,而在介紹這些設計的時候,許多抬頭聽報告的人,都將視線轉向了膝上型電腦或者手機。
另一個更直觀的體現是,在報告結束後的Q&A環節,提問者的問題都在關注在自動駕駛系統中,兩片特斯拉自動駕駛晶片是如何配合的,如果真的發生了錯誤,是如何進行糾錯的,而沒有人再去拘泥於底層架構設計。
此次Hot Chips仍然有不少“AI晶片”的報告,阿里,華為,Cerebras,Habana(一家以色列不錯的創業公司),Tesla,nVidia,Xilinx,Intel,Princeton,然而,每一項工作都是在底層架構設計之外,還有更大的亮點:
阿里實現的應用是少見的text-to-speech,從文字到聲音合成,而不是傳統的CNN和LSTM加速;華為的達芬奇晶片做了logic die與HBM的直接堆疊,而不是傳統高頻寬晶片的2.5D interposer的模式,Cerebras晶片是最極端的wafer-scale晶片,Tesla是帶有冗餘設計的自動駕駛系統,nVidia是NoC+NoP的可擴充套件架構,Xilinx是全新的Versal晶片與擁有更多可程式設計性的AI engine一起,Princeton的研究工作是用SRAM做in-memory computing。
此次Hot Chips大會的情況也充分說明,AI晶片的技術噱頭時代已經過去,越來越多的人在考慮,怎樣去改變當前的正規化,用更新的底層技術去實現更好的效能;是否能夠真的做出可量產的晶片,之後怎樣去和應用更好的融合,實現一個整體好用的系統。在單純數字晶片模式下,單純新的體系結構的創新,已經無法帶來任何新的機會了——我們必須進一步向前看。
三、異構計算:大勢所趨
異構計算, Heterogeneous Computing, 不是一個新鮮的話題,然而真正出現大量使用的異構計算平臺,卻是從近幾年的事情了。異構最重要的涵義,是系統有多種不同功能的部分組成,讓每個部分做它最擅長的事情,而不是用統一的平臺來做所有的事情。
異構計算的興起,與AI晶片的興起,本質上都有一個核心原因,摩爾定律的放緩甚至結束(摩爾定律的話題也是一個稍有爭議的話題,在Philip Wong教授的Keynote中,他認為摩爾定律“well live”,這一點我們在下個部分中再討論)。
在過去幾十年,晶片效能的增長,過半是由於製造工藝的進步帶來的。在上圖AMD CEO Lisa Su的報告中,也可以看到對於GPU,過去十年效能進步最重要的因素,也還是製造工藝的進步,佔到了40%。而隨著摩爾定律的放緩,由製造工藝帶來的進步越來越小,我們必須更多地依賴微架構(也即圖中佔比17%的Microarchitecture部分)和系統層面的進步來實現整體的進步。而這其中,最直接的方式,就是設計Domain-specific architecture(DSA),放棄一部分通用性,來獲得更大的效能提升。通常而言,越專用,通用性越差,越容易取得更好的效能。
也正因為此,我們看到了GPU在影像渲染上碾壓CPU,我們看到了在不同通用性層次支援深度學習的各類DPU/NPU/NNP/MLU/
DLA/VPU。比如,我們可以選擇支援各類機器學習演算法、而不僅僅是深度學習的MLU,也可以選擇只支援深度學習推理的DPU,而如今又出現了不少專注在深度學習訓練的專用晶片。
(在2017年3月GTIC會議報告的PPT截圖)
2018年3月份在智東西組織的GTIC大會上,我曾經講過一個和nVidia VP of BD,Jeff Herbst的小故事。在2017年Hot Chips期間,我約著去拜訪了Jeff,也一起吃了個晚餐。在聊到對於AI晶片未來產品時候,我說“I bet that you will sell a chip with no GPU in two years”,我打賭英偉達會在兩年內賣一顆沒有GPU的晶片。但是沒想到其實英偉達的新產品來得如此之快:在2018年2月的CES,英偉達CEO黃仁勳就公佈了面向自動駕駛的Drive Xavier晶片,號稱30T算力,30W功耗。
但是當我們認真的看PPT上的數字時候會發現,這30T算力,有10TOPS INT8來自於DLA,有20TOPS來自於Tensor Core,都不是傳統的GPU。GPU部分只有512個CUDA core,只有1.3 CUDA TFLOPS。也就是說,這個GPU的算力幾乎可以忽略不計,可能只是用來做大螢幕顯示的。
在我和Jeff見面僅僅半年之後,遠沒有到兩年,nVidia就已經開始推出幾乎沒有GPU的晶片了,而似乎許多人沒有注意到——這也充分說明了軟體介面的重要性,當nVidia把所有的都做成相容CUDA,再加上上層的Library和各類Framework進行封裝,大家已經關注不到底層的改變了。
(Hot Chips 31現場nVidia的報告)
在這次Hot Chips大會上介紹的Turing GPU,雖然還掛著GPU的名字,其實也已經是一顆異構計算晶片,不僅僅是傳統那些SIMD單元,總共由Turing SM, RT Core,與Tensor Core三個部分組成。報告人John Burgess介紹,傳統做光線追蹤,對於每一條光線,要反覆花費數千個時鐘週期,才能正確計算和物體的交界點在哪裡,而一次渲染會有非常多條光線要計算,因此他們才想要設計RT Core來專門解決光線追蹤的問題。這就是典型的異構與DSA解決問題的方式:為一個計算複雜的任務設計專用加速器,用異構的系統來做整體的計算。
(Hot Chips 31現場Xilinx的報告)
而異構計算一個特別極致的案例就是Xilinx本次介紹的Versal,Xilinx的第一款ACAP產品。Versal上同時有兩個arm A72核,兩個arm R5核,可程式設計邏輯也即FPGA,還有AI Engine與DSP Engine!
這樣一顆晶片,可以將應用做非常細緻的拆分,AI部分在AI Engine上,訊號處理部分在DSP Engine上,主控和通用計算部分在兩個不同的CPU,其他需要加速但不能很好利用AI Engine與DSP Engine的部分在中間的可程式設計邏輯上。這種感覺就很“分而治之”,又很像經濟學上的“價格歧視”——同樣的產品,為不同購買力的人群分別制訂他們能接受的最高價格,整體獲得的收益會更大。在這裡,我們是,同樣一顆晶片,但是為不同應用分別劃出專用的一塊區域,去實現最好的效能。
毫無疑問,越來越異構化的晶片會是大勢所趨。但是,實際上,背後依然有非常多的問題,比如,系統與應用層面的考慮,比如,軟體程式設計的問題。當DSA越來越專用,必須去考慮整個晶片是否合適於使用的應用,必須有更多和行業結合的軟體,而不僅僅只是像原來一樣提供一個通用的平臺而已。而複雜異構系統的程式設計開發,在業界依舊是一個沒有完全解決好的問題。對於這樣一顆異構晶片,我怎麼去找到每個部分是否適合某個任務,是手動地劃分任務、為不同部分單獨程式設計再拼到一起,還是統一的軟體介面去程式設計、之後自動對映?還有很多問題需要去解決。
四、安全,是一個越來越重要的話題
在2018年初,CPU行業曝出了兩個巨大的安全漏洞,“Spectre”和“Meltdown”,其核心原因是因為為了追求更好的效能,CPU做了很多的最佳化工作,比如分支跳轉預測,和亂序執行,而不是順序的一條一條執行指令,執行到了再去記憶體裡讀取資料。
而近幾年也有一個很大的趨勢,就是原來僅僅用在支付等場景的https協議,開始被越來越多的使用,大部分主流網站,比如常用的百度,微博,等等,已經全站都是https化了。哪怕我不是一個安全方面的專家,但是我也能感受到,各方面的因素,讓“安全”這兩個詞變得越來越重要:我們希望在雲端計算上執行的任務是安全的,我們希望儲存在雲端的資料是安全,我們希望與伺服器的通訊是安全的。
(Hot Chips 31 Tutorial 來自微軟Azure團隊的報告)
(Hot Chips 31 Tutorial 來自AWS團隊的報告)
在本次Hot Chips大會,我們明顯也看出了各家網際網路公司與晶片公司對於安全的重視,並且把加密變成了產品流程中的重要一環。如上兩圖,在微軟的tutorial中,微軟介紹了自己正在開發了Corsica晶片,將檔案的壓縮解壓縮與加解密做到了一起。AWS的Nitro專案中,也開發了自己的安全晶片。而在Intel的Optane專案中,加解密也已經融合到了儲存一體。
可以想象,未來的儲存一定是和加解密融合到一體的。我們也可以猜想,平頭哥是不是也會做阿里自己的安全晶片?
五、Philip Wong教授的報告回顧
在這一部分中,我想結合Philip Wong老師的Keynote,一起討論一下積體電路製造工藝演進的問題,也想談一下我自己關於製造工藝對於AI晶片創業企業的影響。
在去年8月,史丹佛大學著名教授Philip Wong(黃漢森,以下簡稱黃教授)確認加入臺積電,擔任研究副總裁,在業界傳為佳話,讓大家覺得又是一例產學研結合的典型案例。黃教授多年來在儲存領域有非常深的建樹,也在碳奈米管器件領域有著深入的研究,他的加盟毫無疑問說明TSMC會在儲存方面更下功夫。
黃教授一上來便丟擲了他最重要的主題,他說:
“Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”
(摩爾定律沒有終結,也沒有放緩,更沒有生病。摩爾定律活得好好地!)
在之後,他介紹了臺積電在工藝節點演進上的路線圖與展望,並且闡述了三條他認為可以繼續延續摩爾定律的技術路徑:
1. 系統整合的方式,如用interposer的方式將SoC與DRAM可以整合在一起,如SiP,如Chiplet;
2. 更進一步儲存與計算的整合,比如直接將儲存與計算部分在垂直方向上進行堆疊,採用更細緻和極致的堆疊方案N3XT;
3. 新的底層材料和技術,比如碳奈米管。
特別地,他強調了半導體技術的演進,總是被不斷變化的應用需求所引領的,如上個世紀80年代到2000年的PC/網際網路,到21世紀至今的移動網際網路,在新的時代我們也會更多的去關注AI與5G的底層需求。
六、製造工藝之於AI晶片
黃老師有理有據地闡述了他的觀點:摩爾定律很健康!然而俗話說“屁股決定腦袋“,他這樣說,我們就無從知道,有多少比例的原因是他正在臺積電擔任集團研究副總裁。
如在AMD CEO Lisa Su的報告中,就已經畫出來了工藝演進的曲線,可以看到10nm與7nm工藝的發展速度已經很大程度上偏離了原來的projection。雖然系統級封裝,利用Interposer方式將HBM與計算部分整合到一起,大大提升了儲存頻寬,但是這並不是整合密度的提升。
而晶片製造工藝對於行業影響最大的,並不只是放緩,其製造成本也有非常大的影響:對於晶圓廠和Fabless設計公司均是這樣。
對於晶圓廠來說,7nm等先進工藝生產線動輒數十億美金的投資是一筆巨大的負擔。於是我們看到,在2018年8月,第二梯隊的晶圓廠聯電、Global Foundries先後宣佈放棄7nm工藝。在整個市場上,擁有最先進生產工藝的代工廠,只剩下了臺積電、Intel和三星。
對於Fabless的晶片設計公司,問題同樣巨大。對於臺積電28nm、16nm、7nm的晶片來說,要完成一顆晶片的量產,其IP購買、MPW、量產的成本在數百萬美金,千萬美金,億美金以上——如果考慮人員成本、裝置成本等等的,這個數字還會高上不少。這就導致只有出貨量極大、收入極高的幾家大廠能夠負擔得起最先進工藝。比如大家耳熟能詳的聯發科,如今也只能先使用著臺積電的12nm,而不能像高通和海思一樣使用7nm工藝。
先進製造工藝的成本問題,對於AI晶片創業公司也有很大影響。一般的AI晶片創業公司,可能只能負擔得起28nm工藝,或者說最開始只敢用28nm工藝進行嘗試。融資足夠多的AI創業企業才能嘗試得起16nm工藝的生產費用。在全球數十家AI晶片創業公司當中,我只聽說過有一家敢於去使用7nm。
如地平線在週五釋出的征程二代晶片,就是使用的臺積電28nm工藝(雖然28nm HPC+是多次改進的版本,不展開詳細介紹),這也是大部分嵌入式/終端AI晶片目前選擇的製造工藝;在Hot Chips上吸引了眾多眼球的Cerebras與Habana,均採用的16nm工藝——而這也是迫不得已,因為他們的應用場景在雲端,必須追求極限的高效能,所以必須使用能負擔得起的最好的工藝,也必須選擇HBM或者更加極端的儲存方案(如Cerebras使用的Wafer-scale engine,採用18GB SRAM,單片成本據說在100萬美金左右)。
這就導致一個巨大的問題:CPU與GPU的競爭中,CPU並不能憑藉製造工藝的優勢,來彌補通用性帶來的效能不足,因為二者並無製造工藝上的代差,對於特定應用,效能差距本來也很大;而大公司與AI晶片創業公司之間財力的差距,導致大公司的晶片可以選擇更先進的製造工藝,而AI晶片創業公司卻只能負擔得起相對成熟的工藝。
這樣的話,即便在體系結構設計上,AI晶片創業公司的晶片在特定任務上有數倍的優勢,也可能被製造工藝的差別給抹平。大公司可以透過製造工藝的碾壓,獲得更好的效能,再透過其通用性和原有的渠道、使用者生態的優勢,賣出更多的晶片來收回成本。
在網際網路領域,阿里、騰訊像兩座大山橫貫在路上,利用其強大的資金、技術與產品能力、渠道、使用者等等優勢阻擋住了無數的創業公司。許多成長起來的後起之秀,都是找到自己的途徑去規避巨頭的最強點:京東自建物流,拼多多充分發掘下沉市場,今日頭條用推薦引擎取代搜尋引擎。在AI晶片領域,我們終於也有了類似的感受,但許多企業還做著想正面直接挑戰巨頭的計劃。而先進工藝下晶片的製造成本,也成了創業公司很難邁過去的一道坎。
沒有機會了嗎?也不是。發掘巨頭沒有覆蓋到,但是有潛力的新市場,也許機會正在開啟,如拼多多一般;用新的底層技術,如存內計算,去獲得數量級的提升,而不是在原來傳統數字晶片上硬拼,就好像抖音用短影片取代了長影片與圖片文字的社群;在具體的領域,去做整個系統與產品層面的最佳化,而不只是做晶片,提供更好的服務,就如昨晚在朋友圈刷屏的ZAO,從DeepFake單個演算法出發,做成了細節考慮充分的完整應用;利用好不同地區之間的政策與文化的差異性,就好像滴滴在中國擊敗了Uber。
誰能夠跨過這道門檻,真正和巨頭們掰一掰呢?
我個人看好華為與阿里平頭哥。
前者有足夠多的資源,也可以排在世界前幾的的研發實力與工程能力,軟硬體都非常強,有機會在市場終於被做大之後進場收割;後者,在有足夠多的資源和很強的技術能力外,還有明確的應用以及長期的集團戰略,也能在其看重的領域掀起波浪。而對於創業企業,找到與巨頭的差異性,無論是細分市場、系統整合度、地區政策差異、還是底層技術變革,強化優勢,再拿到足夠多的資源,我相信也希望能夠跑出幾家在各自領域擁有相當地位的公司。
劉慈欣在《流浪地球》裡寫過一個著名的謎語:“你在平原上走著走著,突然迎面遇到一堵牆,這牆向上無限高,向下無限深,向左無限遠,向右無限遠,這牆是什麼? ”
對於AI晶片創業企業來說,眼前這牆真的很大,但也不是無限大。
七、兩個彩蛋
在Hot Chips會場拍攝的兩張照片,總計將四位大咖拍攝進去了,大家都認出來了嗎?