資料中心的AI祕笈:數億美元電費是怎麼省出來的?

陶然陶然發表於2022-03-22

  東數西算,讓資料中心成為行業關注的焦點。

  本質上,這是雙碳背景下的能源供需再分配,發揮西部可再生能源的優勢。而當下,國內資料中心在綠電供能未完全放開的情況下,資料中心的節能減排、降本增效,仍然在眼下被放置於首位。

  PUE(Power Usage Effectiveness),即電源使用效率,是一項衡量資料中心運營、管理水平的關鍵指標,也是資料中心綠色、節能、環保程度的代名詞。

  圍繞“碳中和”的時代命題下,這一名詞更是被行業觀察家們頻繁提及。

  根據國際正常執行時間協會2014年的資料中心調查,全球大型資料中心PUE的合理值界於1.6-2.0之間,PUE平均值為1.7。而國內資料中心同期PUE為 2.5-3.0,IDC行業整體處於粗放式的發展階段。

  一直以來,歐美國家的資料中心行走在綠色節碳的最前沿。全球資料中心節能領域的佼佼者——Google,在2016年為已經很節能高效的15座資料中心,節省了40%以上的冷卻耗能,約佔資料中心用電總成本的15%,PUE降低至1.12。

  過去6年,Google資料中心被外界津津樂道,也成為IDC行業用智慧技術“武裝”自己的學習範本。基於此,本文著重討論如下問題:

  1.Google實現綠色低碳的祕笈究竟是什麼?

  2.國內資料中心節能減排的切入點和主要路徑是什麼?

  3.國內領先的資料中心有哪些具體實踐和成果?

  4.資料中心未來會朝怎樣的方向發展?

  能效比行業高1/3

  2014年,Google消耗了440.3萬兆瓦時的電力,相當於36.7萬戶美國家庭全年的總用電量。對於Google來說,即便是節省幾個百分點的耗電量,都意味著巨大的經濟效益。

  其中,資料中心的用電耗能所佔比重很大。無論是Google覆蓋全球的網路服務還是手機應用,都需要資料中心來提供支援。

  根據美國能源資訊管理局的資料,美國商業用電價格通常為25美元/兆瓦時到40美元/兆瓦時。資料中心用電如果能減少10%,就能幫助Google節省數億美元的支出。

  然而,每個資料中心的體系結構和環境都很獨特,這個高度複雜的動態環境牽扯大量的引數,傳統的公式工程學和人工手段很難優化。

  此時,基於通用智慧框架的AI派上了用場,由Google資料中心部門和Deepmind來操刀。

  這個專案萌生於2014年,起因是青年工程師Jim Gao在網上觀看史丹佛大學教授吳恩達的教學視訊後,受到的啟發。他認為用類神經網路可以提高Google資料中心的效率。他和團隊的想法也很簡單:再小的提升也有巨大的節能效果,對於減少碳排放,幫助抑制氣候變化能夠起到很大作用。

  為期12個月的開發階段中,AI預測PUE的精準度被優化到了99.6%。為了讓模型準確預測資料中心的效率,演算法從數千個感測器中提取出資料中心冷卻系統的快照,輸入到深層神經網路;然後根據不同組合預測潛在行為對能源消耗的影響,幫助Google決定何時清理熱交換器,從而提高裝置冷卻效能。

  Google每個資料中心都有各自的供電和冷卻設施,而且分佈在不同的氣候區。雖然季節性天氣變化也會影響PUE值,但對於谷歌遍佈世界各地的所有資料中心,都已成功地把PUE值保持到一個較低的水平,即使在溼熱的亞特蘭大夏季也不例外。

  2018年前後,Google完成了這套AI系統的升級,不需要人工干預即可直接控制資料中心的製冷系統,而且可以被資料中心的操作專家有效監控。同時,這套基於雲端的AI控制系統已經為Google多家資料中心應用,節約了大量的能源。

  Google全球資料中心副總裁Joe Kava在部落格中表示,在歐洲,Google資料中心的能耗通常比一般的資料中心低三分之一,但團隊仍然在努力使用更少的能源。例如把弗雷德里西亞資料中心打造成為丹麥最節能的資料中心之一,利用先進的機器學習技術確保每瓦電量都使用得當。

  資料中心為什麼是“電老虎”

  Google AI第一次聲名大噪,是在2016年的那場AI與真人的圍棋對決。在機器學習和演算法的神祕面紗被揭開後。中國對於AI技術的熱忱,以及可落地場景的探索,掀起了一股前所未有的熱潮。

  中國IDC行業也深受啟蒙,開始研究如何利用AI技術為資料中心提高能效。Google利用AI演算法控制資料中心製冷系統的思路,在這個時期也被傳導至國內,加速中國大型資料中心走向節能減碳的陣營中。

  市場也察覺到了一種變化:以前,產業界關心用於人工智慧的資料中心;後來,他們更在意用於資料中心的人工智慧。

  這一趨勢發生在AI的黃金時期。大規模的伺服器串聯而成的計算系統支撐了海量的資料處理和運算,一座座資料中心拔地而起。資料中心機架數量由2016 年的 124 萬架上升至 2019 年的 227 萬架,四年間上漲 83.1%。

  這些耗電量大,功率密度高達30-50kW,有些甚至已經升級為100kW的機架,對資料中心的能耗帶來了更大挑戰。

  不過,傳統的大型數椐中心機房IT裝置僅佔用電耗能的46%,另有40%以上用在了泵、冷卻器和冷卻塔等大型工業製冷裝置上。為了維持機房恆定溫度,資料中心通常把進風溫度控制在20-25度。

  根據PUE=資料中心總耗電/IT裝置耗電的計算公式,不難看出製冷環節是導致資料中心能耗飆升的主要元凶,也是PUE居高不下的原因。

  如今,行業級的AI智慧解決方案,正以提高能源利用效率的方式,推進中國資料中心的建設和升級。

  2019年,我國在用超大型、大型資料中心的平均PUE分別為1.63和1.54,規劃在建的資料中心,平均設計PUE在1.5左右。雖然行業專家坦承,我國資料中心的總體能耗仍與國際先進水平相差30%以上,且只有一小部分新建資料中心PUE可做到1.4以下,但這一差距正以肉眼可見的速度縮窄。

  年度減排=種16萬棵樹

  在國內,華為是第一家用AI幫助資料中心在冷卻環節做複雜決策的企業。

  傳統的製冷系統管理雖然久經驗證,但高度依賴運維人員的經驗,IT團隊時常人手不足,或沒有足夠的資源來密切關注7*24小時的複雜流程,缺乏一定的靈活性和精確性。

  Google資料中心的智慧路線,讓行業愈發看到AI既能夠勝任全天候的實時監控,又能在大量系統引數發生變化時,發揮及時應對的技術優勢。

  廊坊雲資料中心是華為公有云的北方基地以及華北地區的資料樞紐,也是華為落地AI的首個專案。

  出於節能減排和控制成本的考慮,華為廊坊雲資料中心在建設之初,就採用了行級精密空調、高效供配電,冷熱通道隔離等設計方案,還部署了間接蒸發式自然冷卻(IEC)系統,並利用外部冷源,降低製冷系統的電力消耗。

  儘管設計方案在當時很超前,但如此複雜的體系,限制了資料中心的運維調整空間,系統給無法根據系統的實際用量做出精確的調整,只能在幾個固定模式之間來回切換。

  而大資料與AI的結合,讓華為資料中心找到了演算法的最優解。廊坊雲資料中心率先成為了“試驗田”。

  2018年5月,華為把iCooling能效優化技術方案部署在廊坊雲資料中心的1500個機架上,節省了8%的電力消耗,年平均PUE從1.42降低至1.26。算下來,每年可省下630多萬度電,減少超過300萬千克的二氧化碳排放,效果等同於種下了16萬棵樹。

  這套系統的邏輯和上述Google的智慧解決方案類似:系統從700多個監控點、感測器中收集資料,然後對資料與系統PUE數值、能效之間的關聯度進行分析,識別出最重要的21種變數後,再對深度神經網路進行訓練,建立動態的PUE模型。

  最終,這套PUE模型的預測準確性達到99.5%。有了它,華為邊緣AI推理平臺Atlas 200可在1分鐘內,從40萬中初始組合中找出最佳的製冷策略,準確性和速度遠超資深資料中心工程師的能力。

  從自動化邁向智慧化

  基於華為自建大型節能資料中心的能力,以及iCooling等軟體解決方案的技術優勢,華為開始扮演IDC服務商的角色,參與外部資料中心的建設。

  例如2019年12月,中國移動寧夏資料中心(中衛)正式投產時,定位於超大規模、綠色節能的世界一流資料中心。根據官方披露的資料,在第一階段冬季自然冷卻的場景下,華為iCooling AI能效優化技術,幫助該資料中心的總能耗降低了3.2%,每年可節電40多萬度。

  當AI學習能力得到進一步增強,資料中心負載提升和製冷方式的切換,其目標是完成每年節省600萬度電的任務,相當於減少約300萬千克的二氧化碳排放。

  按照中國工信部的要求,2022年新建大型、超大型資料中心PUE必須達到1.4 以下。如何運用新技術、新架構降低能源損耗、實現資料中心的綠色發展,成為IDC行業的關注熱點。

  以華為烏蘭察布雲資料中心為例,採用間接蒸發冷卻解決方案和iCooling能效優化技術,年均PUE降低至1.15。與傳統冷凍水解決方案相比,該資料中心每年可節省耗電量超過1600萬度,每年減少二氧化碳排放量約8140噸。

  再比如,貴安華為雲資料中心在2021年9月投入使用時,對外宣佈的PUE是1.12,相當於大部分的電力資源都在資料中心中被利用起來,基本與Google資料中心的能耗持平。華為對此也給予了很高的評價,認為達到了業界領先水平。

  這其中,AI和大資料分析技術起到了削峰平谷的作用,伺服器可根據業務功率變化實時調整製冷功率,提升能效和運維效率。滿負荷執行情況下,理論上每年可節省10.1億度電和81萬噸的碳排放。

  同樣引入AI技術的,還有百度陽泉資料中心。其深度學習模型根據室外天氣溼度、溫度和負荷,自主判斷並切換製冷模式、預冷模式和節約模式這三種冷水機組執行模式。

  此外,陽泉資料中心的AI智慧預警功能,可以根據負載預判裝置的執行情況,然後給出維護策略。單體資料中心的年均PUE最高可降至1.08,PUE明顯優於1.59的全球平均水平。

  在資料中心自我進化的過程中,AI技術所能應用的範疇遠不止調整PUE、降低能耗。

  陽泉資料中心已經從自動化向智慧化的方向發展。例如資料中心在2018年嘗試採用無紙化智慧巡檢,相關資料上傳到遠端電腦,專家系統通過分析現場執行資料,保障系統的穩定性。

  隨著一系列AI技術在資料中心運營和管理中的作用越來越廣泛,大公司在智慧運維、風險管理、安全管理等方面,對AI給予了比較大的期許。

  資料中心的日常運維,有50%的人力消耗在巡檢工作中。按照華為設計的資料中心AI無人巡檢方案,遠端抄表、影像識別、聲音識別等多種技術,可讓90%的人工巡檢內容轉變成自動化、遠端無人處理。

  除此之外,華為基於自動駕駛技術的AI-Robot ,已經從影像/聲音/氣味識別、溫度雲圖、資產管理等維度,自主規劃路線,實時上報巡檢資訊,並生成巡檢報告。

  如今,AI幫助資料中心開啟了節能減排的新時代,而無人智慧運維從“超前”變為“眼前”,既需要更多的成熟方案和技術攻堅,也取決於市場能否爆發新的需求。但無可否認,智慧化的底座在給IDC行業帶來從追趕到超越的更多信心。

來自 “ 數字時氪 ”, 原文作者:數字時氪;原文連結:http://server.it168.com/a2022/0322/6642/000006642079.shtml,如有侵權,請聯絡管理員刪除。

相關文章