儘管近年來深度學習取得了巨大進展,但訓練神經網路所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關於演算法高效深度學習的研究,這些研究旨在透過改變訓練程式的語義,而不是在硬體或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將演算法加速問題形式化,然後我們使用演算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,並揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(透過實驗說明),併為它們提供分類緩解策略。最後,我們強調了一些尚未解決的研究挑戰,並提出了有希望的未來方向。

在過去的幾年裡,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文字到影像合成(DL – e [Ramesh et al。2021])、文字生成(GPT-3 [Brown等人。2020a])等。實現這些效能提升的關鍵策略是將DL模型擴充套件到非常大的規模,並對它們進行大量資料的訓練。對於大多數應用程式,可訓練引數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。

大規模人工智慧模型的著名例子包括:用於視覺應用的Swin Transformer-V2 [Liu等人2022a],用於語言建模的PaLM [Chowdhery等人2022],用於內容推薦的波斯[Lian等人2021],具有100萬億引數。

儘管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當於5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的效能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的效能,但還沒有達到。不斷增長的模型和資料規模以達到所需的效能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智慧模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的使用者(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。

考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的演算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種演算法高效的深度學習方法可以透過多種方式改變訓練過程,包括:改變資料或樣本呈現給模型的順序;調整模型的結構;改變最佳化演算法。這些演算法改進對於實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。此外,這些演算法增益與軟體和硬體加速技術相結合[Hernandez和Brown 2020]。因此,我們相信演算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益並降低其成本。

雖然最近湧現的演算法效率論文支援了這一觀點,但這些論文也表明,演算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特徵不佳的環境中執行的,這將導致不正確或過於寬泛的結論。在討論演算法效率方法時,缺乏反映它們的廣度和關係的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來並開發新的方法。因此,本文的核心貢獻是組織演算法效率文獻(透過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(透過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,演算法效率方法是否會導致實際的加速確實取決於方法(透過我們的分類法可以理解)和計算平臺(透過我們的從業者指南可以理解)之間的互動。我們的貢獻總結如下:

形式化加速:我們回顧DNN效率指標,然後形式化演算法加速問題。

分類和調研:我們透過適用於3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助於為從業者選擇方法,為讀者消化文獻,併為研究人員識別機會。

最佳評估實踐:我們識別了文獻中常見的評估陷阱,並相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。

從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

本文來自:AI資料派

PDF版本將分享到199IT知識星球,掃描下面二維碼即可下載!