來源:arxiv
作者:Griffin Lacey Graham Taylor Shawaki Areibi
摘要
最近幾年資料量和可訪問性的迅速增長,使得人工智慧的演算法設計理念發生了轉變。人工建立演算法的做法被計算機從大量資料中自動習得可組合系統的能力所取代,使得計算機視覺、語音識別、自然語言處理等關鍵領域都出現了重大突破。深度學習是這些領域中所最常使用的技術,也被業界大為關注。然而,深度學習模型需要極為大量的資料和計算能力,只有更好的硬體加速條件,才能滿足現有資料和模型規模繼續擴大的需求。現有的解決方案使用圖形處理單元(GPU)叢集作為通用計算圖形處理單元(GPGPU),但現場可程式設計門陣列(FPGA)提供了另一個值得探究的解決方案。日漸流行的FPGA設計工具使其對深度學習領域經常使用的上層軟體相容性更強,使得FPGA更容易為模型搭建和部署者所用。FPGA架構靈活,使得研究者能夠在諸如GPU的固定架構之外進行模型優化探究。同時,FPGA在單位能耗下效能更強,這對大規模伺服器部署或資源有限的嵌入式應用的研究而言至關重要。本文從硬體加速的視角考察深度學習與FPGA,指出有哪些趨勢和創新使得這些技術相互匹配,並激發對FPGA如何幫助深度學習領域發展的探討。
機器學習對日常生活影響深遠。無論是在網站上點選個性化推薦內容、在智慧手機上使用語音溝通,或利用面部識別技術來拍照,都用到了某種形式的人工智慧技術。這股人工智慧的新潮流也伴隨著演算法設計的理念轉變。過去基於資料的機器學習大多是利用具體領域的專業知識來人工地“塑造”所要學習的“特徵”,計算機從大量示例資料中習得組合特徵提取系統的能力,則使得計算機視覺、語音識別和自然語言處理等關鍵領域實現了重大的效能突破。對這些資料驅動技術的研究被稱為深度學習,如今正受到技術界兩個重要群體的關注:一是希望使用並訓練這些模型、從而實現極高效能跨任務計算的研究者,二是希望為現實世界中的新應用來部署這些模型的應用科學家。然而,他們都面臨著一個限制條件,即硬體加速能力仍需加強,才可能滿足擴大現有資料和演算法規模的需求。
對於深度學習來說,目前硬體加速主要靠使用圖形處理單元(GPU)叢集作為通用計算圖形處理單元(GPGPU)。相比傳統的通用處理器(GPP),GPU的核心計算能力要多出幾個數量級,也更容易進行平行計算。尤其是NVIDIA CUDA,作為最主流的GPGPU編寫平臺,各個主要的深度學習工具均用其來進行GPU加速。最近,開放型並行程式設計標準OpenCL作為異構硬體程式設計的替代性工具備受關注,而對這些工具的熱情也在高漲。雖然在深度學習領域內,OpenCL獲得的支援相較CUDA還略遜一籌,但OpenCL有兩項獨特的效能。首先,OpenCL對開發者開源、免費,不同於CUDA單一供應商的做法。其次,OpenCL支援一系列硬體,包括GPU、GPP、現場可程式設計門陣列(FPGA)和數字訊號處理器(DSP)。
1.1. FPGA
作為GPU在演算法加速上強有力的競爭者,FPGA是否立即支援不同硬體,顯得尤為重要。FPGA與GPU不同之處在於硬體配置靈活,且FPGA在執行深入學習中關鍵的子程式(例如對滑動視窗的計算)時,單位能耗下通常能比GPU提供更好的表現。不過,設定FPGA需要具體硬體的知識,許多研究者和應用科學家並不具備,正因如此,FPGA經常被看作一種行家專屬的架構。最近,FPGA工具開始採用包括OpenCL在內的軟體級程式設計模型,使其越來越受經主流軟體開發訓練的使用者青睞。
對考察一系列設計工具的研究者而言,其對工具的篩選標準通常與其是否具備使用者友好的軟體開發工具、是否具有靈活可升級的模型設計方法以及是否能迅速計算、以縮減大模型的訓練時間有關。隨著FPGA因為高抽象化設計工具的出現而越來越容易編寫,其可重構性又使得定製架構成為可能,同時高度的平行計算能力提高了指令執行速度,FPGA將為深度學習的研究者帶來好處。
對應用科學家而言,儘管有類似的工具級選擇,但硬體挑選的重點在於最大化提高單位能耗的效能,從而為大規模執行降低成本。所以,FPGA憑藉單位能耗的強勁效能,加上為特定應用定製架構的能力,就能讓深度學習的應用科學家受益。
FPGA能滿足兩類受眾的需求,是一個合乎邏輯的選擇。本文考察FPGA上深度學習的現狀,以及目前用於填補兩者間鴻溝的技術發展。因此,本文有三個重要目的。首先,指出深度學習領域存在探索全新硬體加速平臺的機會,而FPGA是一個理想的選擇。其次,勾勒出FPGA支援深度學習的現狀,指出潛在的限制。最後,對FPGA硬體加速的未來方向提出關鍵建議,幫助解決今後深度學習所面臨的問題。
傳統來說,在評估硬體平臺的加速時,必須考慮到靈活性和效能之間的權衡。一方面,通用處理器(GPP)可提供高度的靈活性和易用性,但效能相對缺乏效率。這些平臺往往更易於獲取,可以低廉的價格生產,並且適用於多種用途和重複使用。另一方面,專用積體電路(ASIC)可提供高效能,但代價是不夠靈活且生產難度更大。這些電路專用於某特定的應用程式,並且生產起來價格昂貴且耗時。
FPGA是這兩個極端之間的折中。FPGA屬於一類更通用的可程式設計邏輯裝置(PLD),並且簡單來說,是一種可重新配置的積體電路。因此,FPGA既能提供積體電路的效能優勢,又具備GPP可重新配置的靈活性。FPGA能夠簡單地通過使用觸發器(FF)來實現順序邏輯,並通過使用查詢表(LUT)來實現組合邏輯。現代的FPGA還含有硬化元件以實現一些常用功能,例如全處理器核心、通訊核心、運算核心和塊記憶體(BRAM)。另外,目前的FPGA趨勢趨向於系統晶片(SoC)設計方法,即ARM協處理器和FPGA通常位於同一晶片中。目前的FPGA市場由Xilinx和Altera主導,兩者共同佔有85%的市場份額。此外,FPGA正迅速取代ASIC和應用專用標準產品(ASSP)來實現固定功能邏輯。 FPGA市場規模預計在2016年將達到100億美元。
對於深度學習而言,FPGA提供了優於傳統GPP加速能力的顯著潛力。GPP在軟體層面的執行依賴於傳統的馮·諾依曼架構,指令和資料儲存於外部儲存器中,在需要時再取出。這推動了快取的出現,大大減輕了昂貴的外部儲存器操作。該架構的瓶頸是處理器和儲存器之間的通訊,這嚴重削弱了GPP的效能,尤其影響深度學習經常需要獲取的儲存資訊科技。相比較而言,FPGA的可程式設計邏輯原件可用於實現普通邏輯功能中的資料和控制路徑,而不依賴於馮·諾伊曼結構。它們也能夠利用分散式片上儲存器,以及深度利用流水線並行,這與前饋性深度學習方法自然契合。現代FPGA還支援部分動態重新配置,當FPGA的一部分被重新配置時另一部分仍可使用。這將對大規模深度學習模式產生影響,FPGA的各層可進行重新配置,而不擾亂其他層正在進行的計算。這將可用於無法由單個FPGA容納的模型,同時還可通過將中間結果儲存在本地儲存以降低高昂的全球儲存讀取費用。
最重要的是,相比於GPU,FPGA為硬體加速設計的探索提供了另一個視角。GPU和其它固定架構的設計是遵循軟體執行模型,並圍繞自主計算單元並行以執行任務搭建結構。由此,為深度學習技術開發GPU的目標就是使演算法適應這一模型,讓計算並行完成、確保資料相互依賴。與此相反,FPGA架構是為應用程式專門定製的。在開發FPGA的深度學習技術時,較少強調使演算法適應某固定計算結構,從而留出更多的自由去探索演算法層面的優化。需要很多複雜的下層硬體控制操作的技術很難在上層軟體語言中實現,但對FPGA執行卻特別具有吸引力。然而,這種靈活性是以大量編譯(定位和迴路)時間為成本的,對於需要通過設計迴圈快速迭代的研究人員來說這往往會是個問題。
除了編譯時間外,吸引偏好上層程式語言的研究人員和應用科學家來開發FPGA的問題尤為艱難。雖然能流利使用一種軟體語言常常意味著可以輕鬆地學習另一種軟體語言,但對於硬體語言翻譯技能來說卻非如此。針對FPGA最常用的語言是Verilog和VHDL,兩者均為硬體描述語言(HDL)。這些語言和傳統的軟體語言之間的主要區別是,HDL只是單純描述硬體,而例如C語言等軟體語言則描述順序指令,並無需瞭解硬體層面的執行細節。有效地描述硬體需要對數字化設計和電路的專業知識,儘管一些下層的實現決定可以留給自動合成工具去實現,但往往無法達到高效的設計。因此,研究人員和應用科學家傾向於選擇軟體設計,因其已經非常成熟,擁有大量抽象和便利的分類來提高程式設計師的效率。這些趨勢使得FPGA領域目前更加青睞高度抽象化的設計工具。
1987VHDL成為IEEE標準
1992GANGLION成為首個FPGA神經網路硬體實現專案(Cox et al.)
1994Synopsys推出第一代FPGA行為綜合方案
1996VIP成為首個FPGA的CNN實現方案(Cloutier et al.)
2005FPGA市場價值接近20億美元
2006首次利用BP演算法在FPGA上實現5 GOPS的處理能力
2011Altera推出OpenCL,支援FPGA
出現大規模的基於FPGA的CNN演算法研究(Farabet et al.)
2016在微軟Catapult專案的基礎上,出現基於FPGA的資料中心CNN演算法加速(Ovtcharov et al.)
深度學習的未來不管是就FPGA還是總體而言,主要取決於可擴充套件性。要讓這些技術成功解決未來的問題,必須要擴充到能夠支援飛速增長的資料規模和架構。FPGA技術正在適應這一趨勢,而硬體正朝著更大記憶體、更少的特徵點數量、更好的互連性發展,來適應FPGA多重配置。英特爾收購了Altera,IBM與Xilinx合作,都昭示著FPGA領域的變革,未來也可能很快看到FPGA與個人應用和資料中心應用的整合。另外,演算法設計工具可能朝著進一步抽象化和體驗軟體化的方向發展,從而吸引更廣技術範圍的使用者。
4.1. 常用深度學習軟體工具
在深度學習最常用的軟體工具中,有些工具已經在支援CUDA的同時,認識到支援OpenCL的必要性。這將使得FPGA更容易實現深度學習的目的。雖然據我們所知,目前沒有任何深度學習工具明確表示支援FPGA,不過下面的表格列出了哪些工具正朝支援OpenCL方向發展:
Caffe,由伯克利視覺與學習中心開發,其GreenTea專案對OpenCL提供非正式支援。Caffe另有支援OpenCL的AMD版本。
Torch,基於Lua語言的科學計算框架,使用範圍廣,其專案CLTorch對OpenCL提供非正式支援。
Theano,由蒙特利爾大學開發,其正在研發的gpuarray後端對OpenCL提供非正式支援。
DeepCL,由Hugh Perkins開發的OpenCL庫,用於訓練卷積神經網路。
對於剛進入此領域、希望選擇工具的人來說,我們的建議是從Caffe開始,因為它十分常用,支援性好,使用者介面簡單。利用Caffe的model zoo庫,也很容易用預先訓練好的模型進行試驗。
4.2. 增加訓練自由度
有人或許以為訓練機器學習演算法的過程是完全自動的,實際上有一些超引數需要調整。對於深度學習尤為如此,模型在引數量上的複雜程度經常伴隨著大量可能的超引數組合。可以調整的超引數包括訓練迭代次數、學習速率、批梯度尺寸、隱藏單元數和層數等等。調整這些引數,等於在所有可能的模型中,挑選最適用於某個問題的模型。傳統做法中,超引數的設定要麼依照經驗,要麼根據系統網格搜尋或更有效的隨機搜尋來進行。最近研究者轉向了適應性的方法,用超引數調整的嘗試結果為配置依據。其中,貝葉斯優化是最常用的方法。
不管用何種方法調整超引數,目前利用固定架構的訓練流程在某種程度上侷限了模型的可能性,也就是說,我們或許只在所有的解決方案中管窺了一部分。固定架構讓模型內的超引數設定探究變得很容易(比如,隱藏單元數、層數等),但去探索不同模型間的引數設定變得很難(比如,模型類別的不同),因為如果要就一個並不簡單符合某個固定架構的模型來進行訓練,就可能要花很長時間。相反,FPGA靈活的架構,可能更適合上述優化型別,因為用FPGA能編寫一個完全不同的硬體架構並在執行時加速。
4.3. Low power compute clusters低耗能計算節點叢集
深度學習模型最讓人著迷的就是其擴充能力。不管是為了從資料中發現複雜的高層特徵,還是為資料中心應用提升效能,深度學習技術經常在多節點計算基礎架構間進行擴充。目前的解決方案使用具備Infiniband互連技術的GPU叢集和MPI,從而實現上層的平行計算能力和節點間資料的快速傳輸。然而,當大規模應用的負載越來越各不相同,使用FPGA可能會是更優的方法。FPGA的可程式設計行允許系統根據應用和負載進行重新配置,同時FPGA的能耗比高,有助於下一代資料中心降低成本。
相比GPU和GPP,FPGA在滿足深度學習的硬體需求上提供了具有吸引力的替代方案。憑藉流水線平行計算的能力和高效的能耗,FPGA將在一般的深度學習應用中展現GPU和GPP所沒有的獨特優勢。同時,演算法設計工具日漸成熟,如今將FPGA整合到常用的深度學習框架已成為可能。未來,FPGA將有效地適應深度學習的發展趨勢,從架構上確保相關應用和研究能夠自由實現。