15萬美元多跑0.1分,大型AI研究被批無視能耗成本

dicksonjyl560101發表於2019-08-11


越來越強大的AI模型正在改變這個世界。但這背後的成本並不便宜。以中國的資料為例,全國40萬個資料中心,每年總體耗電量超過1000億度,這相當於三峽和葛洲壩水電站1年發電量的總和。

近日,著名的AI研究機構艾倫AI研究所(AI2)釋出了一份新的立場檔案(Position Paper),呼籲業內在評估AI研究時應該更加重視能效,在開發、訓練和執行模型時,與速度、準確性等指標一併列出“成本標籤”。AI2 執行長 Oren Etzioni 表示,時代正在發生變化,“能源密集型”的AI研究產生的碳排放愈發令人擔憂。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

圖丨名為“綠色AI”的立場檔案(來源:arxiv)

業內是不是需要一個深度學習效率評估標準來扭轉方向仍待討論,但AI2的這次呼籲並不是個例。

今年初到現在,明顯有越來越多的研究人員對AI研究尤其是深度學習不斷增長的成本發出了警告。不久前在北京舉辦的鯤鵬計算產業發展峰會上,中國科學院院士梅宏表示,雲端計算、AI對綠色計算提出巨大需求。

而最近在舊金山舉行的一次會議上,應用材料公司CEO加里·迪克森(Gary Dickerson)更是給出了一個大膽的預測:在材料、晶片製造和設計方面缺乏重大創新的情況下,到2025年,資料中心的人工智慧工作量將佔世界用電量的10%。要知道,目前廣為詬病的比特幣挖礦每年消耗電量超過20億瓦,也只是大概相當於全球電量的0.5%而已。

Etzioni強調,在能源需求方面,不希望人工智慧研究成為翻版的比特幣挖礦活動。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

圖丨 艾倫AI研究所執行長 Oren Etzioni (來源:AI2)

“不計成本”的研究思路屢遭批判

AI計算的能耗增長首先來自越來越複雜的AI模型的出現,頗為諷刺的是,諸如深度學習等熱門AI技術,其靈感來自於人類的大腦,但人的大腦其實是非常節能的。

以自然語言處理為例,今年 6 月,一項研究更是指出,開發大規模的自然語言處理模型會產生令人震驚的碳排放量。

那篇提交到自然語言處理頂會ACL 2019的論文顯示,Transformer、GPT-2、ELMo、BERT這4個熱門的語言處理深度神經網路,其訓練過程的碳排放不亞於一輛汽車從生產到報廢產生的碳排放量。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

圖丨NLP 4大頂尖模型的訓練用時、能耗效率和碳排放(來源:ACL 2019)

以谷歌開發的Transformer為例,在不使用神經架構檢索(NAS)的情況下,訓練Transformer所需的時間是84小時,而使用NAS的情況則花費了27萬小時以上。上述4個神經網路中,耗電量最大的是使用NAS時的Transformer,二氧化碳排放量為284噸。這是平均轎車從製造到耐用年數的使用和廢棄的全過程排出的二氧化碳量(約57噸)的約5倍。

更早時候,谷歌將工業界新寵AutoML 的思想應用到NLP領域,找到了進化版的Transformer,其中,用於英語到德語翻譯的BLEU分數提高了0.1,卻花費了3.2萬TPU小時,雲端計算費高達15萬美元。

這一趨勢出現的原因之一在於,近年來,企業研究實驗室投入深度學習的計算能力大幅提升,業界尤其是頭部公司的研究團隊在推動技術發展的同時,幾乎不怎麼考慮能耗成本,簡而言之,不差錢。這種突破性專案所耗費的資源已經和普通專案的不在一個量級。於是我們看到,總會有一些排行榜不斷慶祝新的記錄突破,但他們很少提及這些成績所帶來的成本。殊不知,效能的線性增長背後,其實是資源的指數增長。

此前Open AI發表的一項研究就顯示,每三到四個月,訓練這些大型模型所需的計算資源就會翻一番(相比之下,摩爾定律有18個月的倍增週期)。2012至2018年間,深度學習前沿研究所需的計算資源更是增加了30萬倍。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

圖丨2012年以來,最大規模人工智慧模型中所用計算量呈指數級增長,3.5個月的時間翻一倍。自201

初創公司將首先受益於“綠色AI”

現在,AI2 執行長 Oren Etzioni 就在這份最新報告中呼籲,業內刊物和會議的審稿人應該獎勵那些提高效率和效能的研究人員。對於整個行業來說,還需要更加從上至下地設計新的機制保證資源成本的耗費得到更多關注。

他認為,AI研究人員從現在開始一同公佈培訓模型的財務和計算成本以及他們的效能成果,提高實現效能提升所需資源的透明度,這將能激勵開發高效節能的機器學習演算法。

Oren Etzioni 提出,可以給AI研究規定一個“成本標籤”:如將達到特定結果所需的浮點運算(FPO)作為研究論文的常規部分。

但是,僅僅是FPO這一項指標還無法解決所有問題。“我們已經看到在AI模型開發中持續升級的驚人能耗,公開這些能耗成本會是科技界的一個持續的話題”,他說。

關注能耗指標不僅僅是從環境的角度考慮的,它對該領域的多樣性發展和技術進步也有影響。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

圖丨AI2 團隊從幾個頂會中抽取了一定數目的論文,結果顯示研究人員對準確率的關注度要大於效率(來源:

邏輯在於,那些以資源耗費為首要代價的顯著成果,在AI實驗室中可以獲得更多的關注和成長空間,但歷史表明,更有持久力的創新往往是在基於有限的資源上產生的。密集地消耗資源,可能會限制住實驗室中的研究在資源有限的現實世界中施展拳腳,同時又將該領域的發展導向短期見效的成果,而不是更有利於公眾的相關技術的長期進展。

“這裡有一個重要的包容性問題。如果你需要比如10億美元才能踏入前沿的人工智慧研究,那麼可能來自新興經濟體的人們,甚至學生、學者和創業公司,都會被排除在外”,Etzioni 表示,希望整個AI社群能夠更多地意識到這種權衡。他認為,這不是一個非此即彼的問題,“我們只是想在這個領域取得更好的平衡。”

尤其對於一些初創企業來說,投資更高效更節能的演算法,可以幫助他們從有限的資源中擠出更多利潤,併產生其他收益。當然在行業的實踐上,已經有一些公司意識到AI計算能效的重要性,而非單單追求依賴硬體的算力野蠻生長。

前幾年關於晶片算力這一概念的討論,多認為理論上的計算峰值就是算力,但現在,業內有觀點指出,在討論算力的演進時應該少關注器件利用率。

在一場AI晶片論壇中,地平線聯合創始人兼副總裁黃暢就提出了一個“定義真實的AI晶片效能”的說法。

15萬美元多跑0.1分,大型AI研究被批無視能耗成本

(來源:DeepTech)

據介紹,傳統晶片效能指的是PPA,包括Power、Performance、Aera(效能、功耗、面積),即一秒鐘執行多少指令,在AI晶片上則是討論每瓦有多少AI計算,比較主流的指標是TOPS/Watt和TOPS/$。但演算法不斷演進,器件的利用率由架構和編譯器決定,架構負責把演算法轉化為相對架構而言最優的質量、序列和執行模式。一個保證能效的做法是,演算法+晶片聯合最佳化,兼顧計算架構和演算法設計。

他認為未來還會有巨大的AI計算需求。“舉個例子,Google前段時間訓練的非常厲害的模型,進一步用NAS的技術,呼叫上千臺GPU跑了兩個月找到很好的結構,把機器翻譯的模型推到極致。如果把模型部署出去進行推理,隨著時間的增長,它的能耗是百倍、千倍的增長。我們不能忽視享受GPU的叢集訓練、推理背後巨大的能源消耗……做AI的企業,不管是做演算法、應用、晶片的都要承擔一些社會責任”,他說。

下一個“吃電巨獸”市場,低能耗的成本優勢或成競爭決勝點

除了日益複雜的AI模型以外,另一個推動AI計算走向能源密集的因素是,訓練 AI 模型的資訊組合也在發生轉變。

與文字和音訊資訊相比,影片和其他影像資訊佔比正在不斷增加,尤其在5G、邊緣計算鋪開之後,可視資料對算力的需求更大,所以能耗也相對高一些。加之無人車和嵌入其他智慧裝置的感測器等產品的興起,訓練AI模型需要的資訊也更多,5G網路也會讓資料中心之間的傳輸更加簡單。

這也意味著,接下來,承載大資料以及大量AI計算的資料中心,很可能成為一隻新的“吃電巨獸”。

僅僅以國內的資料中心建設為例,現在的資料中心已經有了驚人的耗電量。據《中國資料中心能耗現狀白皮書》顯示,在中國有40萬個資料中心,每個資料中心平均耗電25萬度,總體超過1000億度,這相當於三峽和葛洲壩水電站1年發電量的總和。如果折算成碳排放則大概是9600萬噸,這個數字接近目前中國民航年碳排放量的3倍。

但國家的要求是,到2022年,資料中心平均能耗基本達到國際先進水平,新建大型、超大型資料中心的PUE(電能使用效率值,越低代表越節能)達到1.4以下。而且北上廣深等發達地區對於能耗指標控制還非常嚴格,這與一二線城市集中的資料中心需求形成矛盾,除了降低PUE,同等計算能力下伺服器節能是重要解決方案之一。未來的伺服器市場,大量的高能耗老舊裝置將會被一一淘汰,低能耗的成本優勢或將成為這一輪資料中心建設潮競爭的決勝點。

國內一家AI初創公司硬體業務部門則對 DeepTech 表示,在整個AI計算的過程中,與碳排放直接相關的,就是電力消耗問題,電力消耗又與使用什麼樣的處理器相關;另外就是在同樣處理器的情況下,使用什麼樣的演算法以減少伺服器數量,從這兩種情況去解決能耗問題。

由此出發,如果從演算法的角度入手,應該秉承的理念是在合適的場景下用合適的演算法去解決它。

其次就是演算法和異構計算的配合,演算法晶片的協同進化程度越高,就可以減少實際部署時伺服器的數量,如此可以達到部分緩解AI計算碳排放的效果。

當然,最值得期待的還是一眾正在醞釀中的新型微晶片。許多初創公司以及英特爾、AMD等大公司目前正在研發能透過光子學等新方法使用極少能耗就能驅動神經網路的半導體。

但也有人認為,AI對未來的大規模計算和能源需求不會有明顯的增長。落基山研究所(Rocky Mountain Institute)高階研究員的特別顧問喬納森·庫梅的態度就比較樂觀,他表示,雖然AI相關領域勢頭正盛,不過未來幾年資料中心能耗仍會相對平穩。

這種莫衷一是的看法也表明,行業在AI對未來的大規模計算和能源需求的最終影響上仍未達成共識。有點諷刺的是,監測AI能耗可能還要靠AI本身。DeepMind 的AI技術就在這個方向上實現了業務收入,他們運用AI技術幫助谷歌資料中心降溫,據稱已經幫助谷歌降低了40%的冷卻費用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2653340/,如需轉載,請註明出處,否則將追究法律責任。

相關文章