MIT研究員警告:深度學習已經接近計算極限
半导体行业观察發表於2020-07-17
根據麻省理工學院,MIT-IBM Watson AI實驗室,Underwood國際學院和巴西利亞大學的研究人員的說法,他們在最近的一項研究中發現,深度學習的進展“非常依賴”計算能力的增長。但他們指出,持續不斷的進步將需要透過改變現有技術或透過尚未發現的新方法來“戲劇性地”更有效地使用深度學習方法。“我們表明,深度學習不是偶然的計算代價,而是設計的代價。共同的靈活性使它能夠出色地建模各種現象,並且效能優於專家模型,這也使其在計算上的成本大大提高。”合著者寫道。“儘管如此,我們發現深度學習模型的實際計算負擔比(理論上的)下界更快地擴充套件,這表明可能有實質性的改進。”深度學習是機器學習的子領域,涉及受大腦結構和功能啟發的演算法。這些演算法(稱為人工神經網路)由功能(神經元)組成,這些功能按層排列,將訊號傳輸到其他神經元。訊號是輸入到網路中的輸入資料的產物,它們從一層到另一層傳播並緩慢地“調諧”網路,實際上是在調整每個連線的突觸強度(權重)。網路最終透過從資料集中提取特徵並識別交叉樣本趨勢來學習進行預測。研究人員分析了Arxiv.org以及其他基準測試來源的1,058篇論文,以瞭解深度學習效能與計算之間的聯絡,並特別注意以下領域:影像分類,物件檢測,問題解答,命名實體識別和機器翻譯。他們對計算需求進行了兩次單獨的分析,反映了可用的兩種資訊:在給定的深度學習模型中,每個網路遍歷的計算,或單遍遍(即權重調整)所需的浮點運算數。硬體負擔,或用於訓練模型的硬體的計算能力,計算方式為處理器數量乘以計算速率和時間。(研究人員承認,儘管這是一種不精確的計算方法,但在他們分析的論文中,它的報告比其他基準要廣泛。)合著者報告說,除從英語到德語的機器翻譯(使用的計算能力幾乎沒有變化)外,所有基準均具有“統計學上顯著性”的斜率和“強大的解釋能力”。物件檢測,命名實體識別和機器翻譯尤其顯示出硬體負擔的大幅增加,而結果的改善卻相對較小,在流行的開源ImageNet基準測試中,計算能力可以解釋影像分類準確度的43%差異。研究人員估計,三年的演算法改進相當於計算能力提高了10倍。他們寫道:“總體而言,我們的結果表明,在深度學習的許多領域中,訓練模型的進步取決於所使用的計算能力的大幅度提高。”, “另一種可能性是,要改善演算法本身可能需要互補地提高計算能力。”在研究過程中,研究人員還對預測進行了推斷,以瞭解達到各種理論基準所需的計算能力以及相關的經濟和環境成本。即使是最樂觀的計算,要降低ImageNet上的影像分類錯誤率,也需要進行10的 五次方以上的計算。一份Synced報告也估計,華盛頓大學的Grover假新聞檢測模型在大約兩週時間內的訓練費用為25,000美元。據報導,OpenAI花費了高達1200萬美元來訓練其GPT-3 語言模型,而Google估計花費了6,912美元來訓練 BERT,這是一種雙向轉換器模型,可為11種自然語言處理任務重新定義最先進的技術。在去年6月的馬薩諸塞州大學阿默斯特分校的另一份報告中,得出的結論是,訓練和搜尋某種模型所需的電量大約排放了626,000磅的二氧化碳。這相當於美國普通汽車壽命排放的近五倍。研究人員寫道:“我們預計目標所隱含的計算需求……硬體,環境和金錢成本將無法承受。” “以一種經濟的方式實現這一目標將需要更高效的硬體,更高效的演算法或其他改進措施,以使淨影響如此之大。”研究人員指出,在演算法級別進行深度學習改進已有歷史先例。他們指出了硬體加速器的出現,例如Google的張量處理單元,現場可程式設計門陣列(FPGA)和專用積體電路(ASIC),並試圖透過網路壓縮和加速技術來降低計算複雜性。他們還引用了神經體系結構搜尋和元學習,它們使用最佳化來查詢在一類問題上保持良好效能的體系結構,以此作為計算上有效的改進方法的途徑。確實,一項OpenAI 研究表明,自2012年以來,每16個月將AI模型訓練到ImageNet影像分類中相同效能所需的計算量就減少了2倍。Google的Transformer架構超越了以前的seq2seq(也是由Google開發的模型),在seq2seq推出三年後,計算量減少了61倍。DeepMind的AlphaZero這個系統從零開始教自己如何掌握國際象棋,將棋和圍棋遊戲,而一年後,該系統所需的計算量就減少了八倍,以匹配該系統的前身AlphaGoZero的改進版本。“用於深度學習模型的計算能力的爆炸式增長已經結束了“人工智慧冬天”,併為各種任務的計算機效能樹立了新的基準。但是,深度學習對計算能力的巨大需求限制了它可以以目前的形式提高效能的程度,特別是在硬體效能的提高放緩的時代。” “這些計算限制的可能影響迫使……機器學習轉向比深度學習更高效的技術。”