在此番講解中,王林認為,“隨著技術推動力——摩爾定律,受到越來越大的挑戰,而應用的最大推動力——智慧手機,也遇到了非常大的增長瓶頸”,全球半導體行業已經進入後摩爾時代與後智慧手機時代。他判斷,在後摩爾+後智慧手機時代,神經網路/深度學習已經成為半導體的新戰場。
在行業應用層面,深度學習在快速變革傳統行業並帶來非常多新的應用,比如無人駕駛、醫療影像分析、工業自動化,FinTech。尤其是汽車,已經變成非常巨大的半導體應用平臺。“全球所有頂尖的半導體公司都在圍繞汽車來做未來的產品規劃,希望其能夠成為智慧手機之後,對全球半導體行業有巨大推動力的推手。”而在處理器或架構層面,圍繞深度學習訓練與推理二個維度的加速需求,尤其是雲端訓練與推理、以及終端推理,出現非常多的晶片層面實現加速的創新方法或技術。結合有代表性的AI加速晶片產品或案例,就其中存在的創業機會與投資機會,他進行了深入的介紹和分析。
全文共計7980字,預計閱讀需要10分鐘。以下是此次講解的提綱:
1、積體電路發展歷史回顧;
2、後摩爾/後智慧手機時代積體電路發展瓶頸;
3、深度學習帶來的應用變革與技術驅動力;
4、深度學習加速晶片實現路徑與關鍵技術;
5、深度學習加速晶片現狀。
主講實錄
王林:大家晚上好,我是華登國際的王林,很高興今天晚上有機會在智東西公開課的AI晶片社群跟大家做一些交流。其實今天晚上的演講壓力還是很大的,因為我看到群裡有很多我的老朋友,都是晶片或者AI領域的高手。
平時演講我都是儘量在懂晶片的人面前講AI,在懂AI的人面前講晶片,但是今天就沒辦法這麼做了,因為群裡有很多晶片和AI領域的高手。我盡我所能,如果有說的不對或者不太好的地方,還請大家多多包涵,主要是能有這樣一個跟大家交流的機會確實非常難得。
今天來講AI加速晶片還是一個挺應景的事情,因為昨天深鑑科技宣佈被Xilinx全資收購。這也是我們能夠看到近期少有的中國高科技公司被美國半導體公司併購的案例,以前我們更熟悉的是聽到中國資本去海外併購一些科技公司或者半導體公司。深鑑科技在這方面做了一個很好的範例。從另一方面也說明我們中國的AI晶片在全球也處於比較領先的地位,當然也證明了AI晶片方面的創業還是挺有前(錢)景的。
講到半導體,不得不從摩爾定律說起。我相信群裡半導體從業人員對摩爾定律已經非常熟悉了,從Intel創始人戈登·摩爾提出摩爾定律到現在已經53年了。過去的53年中,半導體行業一直受著摩爾定律的指導。晶片越做越小,單位面積的電晶體越來越多,功耗越來越低,價格越來越便宜,也使得這個行業過去五十多年來一直保持不錯的增長趨勢。
從右邊這張表可以看到2016年全球半導體的增長率也就7%,很多時候半導體的增長率可能只有2%-3%。但是,很奇怪的是2017年全球半導體有了一個跳躍式增長,達到20%。這是過去十年來半導體行業從來沒有看到過的事情,大家都瞠目結舌。所以,大家是否也有這樣一個疑問:為什麼2017年的增長這麼大?
還有一個比較值得關注的點,歐美的半導體行業已經持續呈衰退狀態,但是2017年,其增長甚至比中國還要高,儘管中國一直維持著半導體高速增長的趨勢。從全球來看,中國市場仍然是增長最顯著的動力源,也是一個非常耀眼的明星。
其實半導體的增長和積體電路晶片的應用息息相關。不得不說過去十年半導體的增長,一定依賴於智慧手機行業的爆發式增長。可以說,到目前為止可能全球有一半的晶片是為了智慧手機生產和使用的。所以說,智慧手機一定是過去十年積體電路行業發展非常大的推動力。
同時,從技術角度來看,摩爾定律近期也受到了非常大的挑戰。雖然我仍然堅信摩爾定律至少在近些年會持續演進下去,但是不得不說,隨著工藝節點的越來越小,也會帶來成本的顯著性提高。我相信,未來7nm、5nm、3nm量產的日子一定會到來,但是也許到了那天可以用上或者說用得起那麼先進工藝的晶片公司也寥寥可數。業界目前有這樣一個共識:28nm應該會是一個長期存在的工藝節點,其效能、成本是一個比較合理的均衡狀態。
當然,我們不能不承認,敢從事半導體方面的人員一定是非常值得尊敬的,都是敢啃硬骨頭的。從我發的這張圖可以看到,其實工業界已經在嘗試用多種方法儘量去使摩爾定律能夠更長期的延續下去,或者能夠以更低的成本延續下去,包括大家所知道的FinFET、FD SOI,都是業界正在推動的一些主流技術路線。EUV光刻技術,三維封裝等都是能夠使摩爾定律長期維持下去的一個非常有效的手段。
其實戈登·摩爾在五十三年前已經說了“積體電路會帶來家用電腦或者至少是和中央電腦所連線的終端裝置、自動駕駛、個人便攜通訊裝置等”。看到這裡,我們就應該清楚戈登·摩爾在五十三年前所做的預言,到今天為止已經基本上都實現了。也就是說,其實戈登·摩爾已經看到了積體電路的發展會帶來非常多的新應用,而這些新應用反過來會成為積體電路發展的巨大推動力。
說到這裡,讓我們來看,在後智慧手機時代,什麼才是積體電路行業的最大推動力呢?
很明顯,到現在為止,大家耳熟能詳的從“網際網路+”到“AI+”可以看到深度學習的出現,給非常多的傳統行業帶來翻天覆地的變革機會,甚至帶來一些新的應用。我覺得,這是深度學習所帶給我們的廣闊天地。大家比較熟悉的AlphaGo下圍棋,包括戈登·摩爾所說的無人駕駛汽車,其背後不得不說是深度學習的出現才帶來了這樣巨大的、有前景的應用。當然,還有醫療影像分析,GE、飛利浦、西門子這三家巨頭在他們最新的醫療影像裝置上,其實已經整合了非常強大的人工智慧演算法來輔助醫療影像科的醫生去更快更好更準確的做診斷;工業自動化領域,半導體生產製造、封裝測試領域帶有機器視覺功能的機器已經非常多了,當然還有FinTech。深度學習給各行各業帶來的變革已經非常明顯。
上面這張圖展示的是四代AlphaGo所使用的硬體平臺。第一代AlphaGo Fan是跑在176個GPU上,打敗李世石的第二代AlphaGo Lee當時是跑在48個第一代Google TPU上,打敗柯潔的第三代AlphaGo Master跑在4個Google第二代TPU上,包括前不久出現的使用對抗神經網路等演算法的AlphaGo Zero仍然是跑在4個TPU上。
不得不說,歐美的半導體廠家在伺服器、工業、汽車領域仍然擁有很強大的不可撼動的優勢和地位。如果說這三大領域得到了非常快速的應用增長和半導體晶片需求的增長,那麼首先得益的肯定是歐美半導體公司。這也是為什麼歐美的半導體公司在2017年能夠有這麼耀眼的成績。
正如戈登·摩爾所說,積體電路的發展帶來了無人駕駛汽車,在這裡也要感謝深度學習演算法的出現,毫無疑問汽車已經變成了一個非常巨大的半導體應用平臺。可以說全球所有頂尖的半導體公司都在圍繞著汽車來做未來的產品規劃,希望其能夠成為智慧手機之後,對全球半導體行業有巨大推動力的推手。當然這個行業也在經歷著巨大的變化,就是要實現汽車行業的四個現代化:新能源化、智慧化、共享化、網際網路化。
從智慧化的角度來說,沒有深度學習的出現,智慧化的到來將是遙不可及的事情。但也正是因為智慧化的出現,給了汽車非常多的賣點,使得消費者願意去選擇更智慧、更具有吸引力的汽車,也使得汽車行業的增長帶來了積體電路行業這樣一個巨大的應用平臺。
前面講了一些應用以及半導體行業的一些發展趨勢,我覺得現在有必要再和大家探討一下,深度學習到底給我們帶來了什麼?帶給半導體行業的創新點到底是什麼?因為我是學工科出身的,其實對於學工科的學生來說,一開始接觸到深度學習會帶來一個非常大的思維障礙。因為對於我們來說,以前學習的理論或者定理,總是要知道來龍去脈,不僅要知其然,還要知其所以然。但是對於深度學習來說,其實我們很難把他搞得這麼清楚。
打一個不恰當的比方,深度學習更像中醫,可能更多的是憑經驗或者感覺,其實很多時候對我們來說深度學習就像一個黑盒子或者灰盒子的狀態,我們沒辦法也沒能力去把這麼龐大的神經網路裡面的運算規律搞清楚。
但是不管怎樣,深度學習帶給我們的結果大家是看得到的,深度學習我們使用的時候需要做訓練,然後反過來需要推理,這樣的過程我們已經做得非常熟了,所以在以後工程化應用過程中,已經沒有理論上的一些障礙了。
那麼深度學習要選擇處理平臺或者什麼樣的架構來做運算呢?其實很自然的一個想法就是,既然神經網路是從人腦來模擬和模擬出來的,那麼我們是不是應該有一個類腦運算平臺或者類腦晶片呢?其實業界也有非常多的公司在做這方面的探索。
因為負責這款晶片開發的教授正好是我浙大的師兄,所以看到這個新聞之後,我也跟他做了一些溝通,就是基於SNN的類腦架構在理論水平和晶片水平上到底是什麼層次?可以看到趨勢還是很明顯的,至少在工程上已經得到了實現的可能性驗證,他們在OCR的識別上應該有達到70-80%的準確度。但是,很遺憾的是SNN一直沒有非常合適運算平臺,造成SNN從理論、演算法的基礎研究上是嚴重滯後於深度學習的科研水平。
不管怎樣,我認為類腦晶片還是非常值得我們關注的一個未來趨勢。但是,短期來看還是基於深度學習演算法和運算平臺更值得工業界去關注和探索。
這裡我們不得不提到另外一個人——馮·諾依曼。他在1946年提出的馮諾依曼架構一直指導著我們計算體系架構的發展。絕大多數的體系架構創新都是基於馮諾依曼架構的,都沒有超出他的框架範圍。馮諾依曼提出所有的計算機的都由儲存、控制、邏輯運算、輸入和輸出五部分組成。
大家都在說深度學習三要素:演算法、算力和資料,從某種程度上跟我之前總結出來的互動、計算和儲存三大計算機體系組成是一一對應、息息相關的。後面我也會從算力和儲存的方向,闡述下我個人認為創新的點和需要攻克的難點到底在哪裡。
深度學習到目前為止可以說是兵家必爭之地,包括我們現在看到深鑑科技被Xilinx收購。其實國內還有很多企業在做深度學習加速的研究。國際上,高通投資了商湯,Intel投資了地平線,華為海思的麒麟970裡面整合的深度學習加速IP來自北京的寒武紀科技。其實可以看到,不管是創業公司還是國際上的大公司,深度學習都受到非常多的關注。
雖然都是深度學習的加速,但是在不同的應用領域,我們還是要分別來對待。包括深度學習的訓練和推理,晶片的應用場景,比如雲端和我們所謂的終端,我認為在不同的晶片裡面,對於加速的要求還是不太一樣的。
對於終端的訓練來說,我還沒有看到太多的機會或者應用場景,包括從功耗的角度是否存在這樣的可能性,也值得大家去探討和思考。
但是在雲端訓練的角度來看,GPU是佔有絕對優勢的,當然FPGA的加速卡、包括Google在做的TPU用來做訓練的ASIC也都在顯示自己的威力;我覺得終端inference,會是一個更加廣闊的應用場景。對於終端來說,從功耗、成本的角度來考慮,ASIC是更加值得大家去關注的一個趨勢。
脈動陣列並不是一個新鮮的詞彙,在計算機體系架構裡面已經存在很長時間。大家可以回憶下馮諾依曼架構,很多時候資料一定是儲存在memory裡面的,當要運算的時候需要從memory裡面傳輸到Buffer或者Cache裡面去。當我們使用computing的功能來運算的時候,往往computing消耗的時間並不是瓶頸,更多的瓶頸在於memory的存和取。所以脈動陣列的邏輯也很簡單,既然memory讀取一次需要消耗更多的時間,脈動陣列盡力在一次memory讀取的過程中可以執行更多的計算,來平衡儲存和計算之間的時間消耗。
上面這張圖非常直觀的從一維資料流展示了脈動陣列的簡單邏輯。當然,對於CNN等神經網路來說,很多時候是二維的矩陣。所以,脈動陣列從一維到二維也能夠非常契合CNN的矩陣乘加的架構。
需要特別提出的是,大家從圖中可以看到,深度學習神經網路包括卷積層和全連線層兩大塊,剪枝對全連線層的壓縮效率是最大的。下面柱狀圖的藍色部分就是壓縮之後的係數佔比,從中可以看到剪枝對全連線層的壓縮是最大的,而對卷積層的壓縮效果相比全連線層則差了很多。
所以這也是為什麼,在語音的加速上很容易用到剪枝的一些方案,但是在機器視覺等需要大量卷積層的應用中剪枝效果並不理想。我相信這也是未來很好的創業和搞科研的方向。
對於整個Deep Learning網路來說,每個權重係數是不是一定要浮點的,定點是否就能滿足?定點是不是一定要32位的?很多人提出8位甚至1位的定點係數也能達到很不錯的效果,這樣的話從係數壓縮來看就會有非常大的效果。從下面三張人臉識別的紅點和綠點的對比,就可以看到其實8位定點係數在很多情況下已經非常適用了,和32位定點係數相比並沒有太大的變化。所以,從這個角度來說,權重係數的壓縮也會帶來網路模型的壓縮,從而帶來計算的加速。
當然,一個不能迴避的問題是計算和儲存之間的儲存牆到現在為止依然存在,仍然有大量的時間消耗在和儲存相關的操作上。
一個很簡單直觀的技術解決方式,就是堆疊更多更快速更高效的儲存,HBM孕育而生,也即在運算晶片的周圍堆疊出大量的3D Memory,透過通孔來連線,不需要與片外的介面進行互動,從而大大降低儲存牆的限制。
更有甚者提出說,儲存一定要和計算分離嗎,儲存和運算是不是可以融合在一起,PIM(Processing in Memory)的概念應運而生。我覺得,這也是一個非常值得大家去關注的領域。我知道,群裡有些朋友也在PIM領域做一些創業的嘗試。
第一個是Google的TPU。從右邊的晶片框圖可以看到,有一個64K的乘加MAC陣列對乘加運算進行加速。從論文中可以看到裡面已經用到了脈動陣列的架構方法來對運算進行加速,另外也有我們前面提到的大量的片上Memory 這樣的路徑。上面藍色框圖中大家可以看到有一個24MiB的片上Memory,而且有兩個高速DDR3介面能夠與片外的DDR做互動。
今天不光講了創業的機會、投資的機會,我認為也正是因為中國有了現在非常好的產業政策,不管是人才還是市場,都是一個很好的創業土壤。我覺得AI加速方面創業和投資的機會依然存在,也希望和有志於在AI領域創業的朋友多多交流。謝謝大家,我的分享到這裡就結束了。
課件下載
第一講,聯發科計算與人工智慧本部總監張家源主講,主題為《如何基於 NeuroPilot平臺打造手機AI》
第二講,深思考人工智慧CEO楊志明主講,主題為《醫療影像專用AI處理器的機遇與挑戰》
第三講,觸景無限CEO肖洪波主講,主題為《玩轉模組化AI 讓智慧更簡單》
第四講,靈汐科技首席架構師馮傑主講,主題為《類腦晶片的架構演進》
第五講,華登國際合夥人王林主講,主題為《淺談AI帶來的積體電路領域創新與投資機會》
第六講,澎峰科技聯合創始人趙華龍主講,主題為《如何從0到1搭建RISC-V處理器》
關注智東西公開課服務號(ID:zhidxclass ),回覆關鍵詞“AI晶片”獲取課件。
本文由機器之心經授權轉載自智東西公開課(ID:zhidxclass),未經授權禁止二次轉載。