資料中心的AI祕笈:數億美元電費是怎麼省出來的?
東數西算,讓資料中心成為行業關注的焦點。
本質上,這是雙碳背景下的能源供需再分配,發揮西部可再生能源的優勢。而當下,國內資料中心在綠電供能未完全放開的情況下,資料中心的節能減排、降本增效,仍然在眼下被放置於首位。
PUE(Power Usage Effectiveness),即電源使用效率,是一項衡量資料中心運營、管理水平的關鍵指標,也是資料中心綠色、節能、環保程度的代名詞。
圍繞“碳中和”的時代命題下,這一名詞更是被行業觀察家們頻繁提及。
根據國際正常執行時間協會2014年的資料中心調查,全球大型資料中心PUE的合理值界於1.6-2.0之間,PUE平均值為1.7。而國內資料中心同期PUE為 2.5-3.0,IDC行業整體處於粗放式的發展階段。
一直以來,歐美國家的資料中心行走在綠色節碳的最前沿。全球資料中心節能領域的佼佼者——Google,在2016年為已經很節能高效的15座資料中心,節省了40%以上的冷卻耗能,約佔資料中心用電總成本的15%,PUE降低至1.12。
過去6年,Google資料中心被外界津津樂道,也成為IDC行業用智慧技術“武裝”自己的學習範本。基於此,本文著重討論如下問題:
1.Google實現綠色低碳的祕笈究竟是什麼?
2.國內資料中心節能減排的切入點和主要路徑是什麼?
3.國內領先的資料中心有哪些具體實踐和成果?
4.資料中心未來會朝怎樣的方向發展?
能效比行業高1/3
2014年,Google消耗了440.3萬兆瓦時的電力,相當於36.7萬戶美國家庭全年的總用電量。對於Google來說,即便是節省幾個百分點的耗電量,都意味著巨大的經濟效益。
其中,資料中心的用電耗能所佔比重很大。無論是Google覆蓋全球的網路服務還是手機應用,都需要資料中心來提供支援。
根據美國能源資訊管理局的資料,美國商業用電價格通常為25美元/兆瓦時到40美元/兆瓦時。資料中心用電如果能減少10%,就能幫助Google節省數億美元的支出。
然而,每個資料中心的體系結構和環境都很獨特,這個高度複雜的動態環境牽扯大量的引數,傳統的公式工程學和人工手段很難優化。
此時,基於通用智慧框架的AI派上了用場,由Google資料中心部門和Deepmind來操刀。
這個專案萌生於2014年,起因是青年工程師Jim Gao在網上觀看史丹佛大學教授吳恩達的教學視訊後,受到的啟發。他認為用類神經網路可以提高Google資料中心的效率。他和團隊的想法也很簡單:再小的提升也有巨大的節能效果,對於減少碳排放,幫助抑制氣候變化能夠起到很大作用。
為期12個月的開發階段中,AI預測PUE的精準度被優化到了99.6%。為了讓模型準確預測資料中心的效率,演算法從數千個感測器中提取出資料中心冷卻系統的快照,輸入到深層神經網路;然後根據不同組合預測潛在行為對能源消耗的影響,幫助Google決定何時清理熱交換器,從而提高裝置冷卻效能。
Google每個資料中心都有各自的供電和冷卻設施,而且分佈在不同的氣候區。雖然季節性天氣變化也會影響PUE值,但對於谷歌遍佈世界各地的所有資料中心,都已成功地把PUE值保持到一個較低的水平,即使在溼熱的亞特蘭大夏季也不例外。
2018年前後,Google完成了這套AI系統的升級,不需要人工干預即可直接控制資料中心的製冷系統,而且可以被資料中心的操作專家有效監控。同時,這套基於雲端的AI控制系統已經為Google多家資料中心應用,節約了大量的能源。
Google全球資料中心副總裁Joe Kava在部落格中表示,在歐洲,Google資料中心的能耗通常比一般的資料中心低三分之一,但團隊仍然在努力使用更少的能源。例如把弗雷德里西亞資料中心打造成為丹麥最節能的資料中心之一,利用先進的機器學習技術確保每瓦電量都使用得當。
資料中心為什麼是“電老虎”
Google AI第一次聲名大噪,是在2016年的那場AI與真人的圍棋對決。在機器學習和演算法的神祕面紗被揭開後。中國對於AI技術的熱忱,以及可落地場景的探索,掀起了一股前所未有的熱潮。
中國IDC行業也深受啟蒙,開始研究如何利用AI技術為資料中心提高能效。Google利用AI演算法控制資料中心製冷系統的思路,在這個時期也被傳導至國內,加速中國大型資料中心走向節能減碳的陣營中。
市場也察覺到了一種變化:以前,產業界關心用於人工智慧的資料中心;後來,他們更在意用於資料中心的人工智慧。
這一趨勢發生在AI的黃金時期。大規模的伺服器串聯而成的計算系統支撐了海量的資料處理和運算,一座座資料中心拔地而起。資料中心機架數量由2016 年的 124 萬架上升至 2019 年的 227 萬架,四年間上漲 83.1%。
這些耗電量大,功率密度高達30-50kW,有些甚至已經升級為100kW的機架,對資料中心的能耗帶來了更大挑戰。
不過,傳統的大型數椐中心機房IT裝置僅佔用電耗能的46%,另有40%以上用在了泵、冷卻器和冷卻塔等大型工業製冷裝置上。為了維持機房恆定溫度,資料中心通常把進風溫度控制在20-25度。
根據PUE=資料中心總耗電/IT裝置耗電的計算公式,不難看出製冷環節是導致資料中心能耗飆升的主要元凶,也是PUE居高不下的原因。
如今,行業級的AI智慧解決方案,正以提高能源利用效率的方式,推進中國資料中心的建設和升級。
2019年,我國在用超大型、大型資料中心的平均PUE分別為1.63和1.54,規劃在建的資料中心,平均設計PUE在1.5左右。雖然行業專家坦承,我國資料中心的總體能耗仍與國際先進水平相差30%以上,且只有一小部分新建資料中心PUE可做到1.4以下,但這一差距正以肉眼可見的速度縮窄。
年度減排=種16萬棵樹
在國內,華為是第一家用AI幫助資料中心在冷卻環節做複雜決策的企業。
傳統的製冷系統管理雖然久經驗證,但高度依賴運維人員的經驗,IT團隊時常人手不足,或沒有足夠的資源來密切關注7*24小時的複雜流程,缺乏一定的靈活性和精確性。
Google資料中心的智慧路線,讓行業愈發看到AI既能夠勝任全天候的實時監控,又能在大量系統引數發生變化時,發揮及時應對的技術優勢。
廊坊雲資料中心是華為公有云的北方基地以及華北地區的資料樞紐,也是華為落地AI的首個專案。
出於節能減排和控制成本的考慮,華為廊坊雲資料中心在建設之初,就採用了行級精密空調、高效供配電,冷熱通道隔離等設計方案,還部署了間接蒸發式自然冷卻(IEC)系統,並利用外部冷源,降低製冷系統的電力消耗。
儘管設計方案在當時很超前,但如此複雜的體系,限制了資料中心的運維調整空間,系統給無法根據系統的實際用量做出精確的調整,只能在幾個固定模式之間來回切換。
而大資料與AI的結合,讓華為資料中心找到了演算法的最優解。廊坊雲資料中心率先成為了“試驗田”。
2018年5月,華為把iCooling能效優化技術方案部署在廊坊雲資料中心的1500個機架上,節省了8%的電力消耗,年平均PUE從1.42降低至1.26。算下來,每年可省下630多萬度電,減少超過300萬千克的二氧化碳排放,效果等同於種下了16萬棵樹。
這套系統的邏輯和上述Google的智慧解決方案類似:系統從700多個監控點、感測器中收集資料,然後對資料與系統PUE數值、能效之間的關聯度進行分析,識別出最重要的21種變數後,再對深度神經網路進行訓練,建立動態的PUE模型。
最終,這套PUE模型的預測準確性達到99.5%。有了它,華為邊緣AI推理平臺Atlas 200可在1分鐘內,從40萬中初始組合中找出最佳的製冷策略,準確性和速度遠超資深資料中心工程師的能力。
從自動化邁向智慧化
基於華為自建大型節能資料中心的能力,以及iCooling等軟體解決方案的技術優勢,華為開始扮演IDC服務商的角色,參與外部資料中心的建設。
例如2019年12月,中國移動寧夏資料中心(中衛)正式投產時,定位於超大規模、綠色節能的世界一流資料中心。根據官方披露的資料,在第一階段冬季自然冷卻的場景下,華為iCooling AI能效優化技術,幫助該資料中心的總能耗降低了3.2%,每年可節電40多萬度。
當AI學習能力得到進一步增強,資料中心負載提升和製冷方式的切換,其目標是完成每年節省600萬度電的任務,相當於減少約300萬千克的二氧化碳排放。
按照中國工信部的要求,2022年新建大型、超大型資料中心PUE必須達到1.4 以下。如何運用新技術、新架構降低能源損耗、實現資料中心的綠色發展,成為IDC行業的關注熱點。
以華為烏蘭察布雲資料中心為例,採用間接蒸發冷卻解決方案和iCooling能效優化技術,年均PUE降低至1.15。與傳統冷凍水解決方案相比,該資料中心每年可節省耗電量超過1600萬度,每年減少二氧化碳排放量約8140噸。
再比如,貴安華為雲資料中心在2021年9月投入使用時,對外宣佈的PUE是1.12,相當於大部分的電力資源都在資料中心中被利用起來,基本與Google資料中心的能耗持平。華為對此也給予了很高的評價,認為達到了業界領先水平。
這其中,AI和大資料分析技術起到了削峰平谷的作用,伺服器可根據業務功率變化實時調整製冷功率,提升能效和運維效率。滿負荷執行情況下,理論上每年可節省10.1億度電和81萬噸的碳排放。
同樣引入AI技術的,還有百度陽泉資料中心。其深度學習模型根據室外天氣溼度、溫度和負荷,自主判斷並切換製冷模式、預冷模式和節約模式這三種冷水機組執行模式。
此外,陽泉資料中心的AI智慧預警功能,可以根據負載預判裝置的執行情況,然後給出維護策略。單體資料中心的年均PUE最高可降至1.08,PUE明顯優於1.59的全球平均水平。
在資料中心自我進化的過程中,AI技術所能應用的範疇遠不止調整PUE、降低能耗。
陽泉資料中心已經從自動化向智慧化的方向發展。例如資料中心在2018年嘗試採用無紙化智慧巡檢,相關資料上傳到遠端電腦,專家系統通過分析現場執行資料,保障系統的穩定性。
隨著一系列AI技術在資料中心運營和管理中的作用越來越廣泛,大公司在智慧運維、風險管理、安全管理等方面,對AI給予了比較大的期許。
資料中心的日常運維,有50%的人力消耗在巡檢工作中。按照華為設計的資料中心AI無人巡檢方案,遠端抄表、影像識別、聲音識別等多種技術,可讓90%的人工巡檢內容轉變成自動化、遠端無人處理。
除此之外,華為基於自動駕駛技術的AI-Robot ,已經從影像/聲音/氣味識別、溫度雲圖、資產管理等維度,自主規劃路線,實時上報巡檢資訊,並生成巡檢報告。
如今,AI幫助資料中心開啟了節能減排的新時代,而無人智慧運維從“超前”變為“眼前”,既需要更多的成熟方案和技術攻堅,也取決於市場能否爆發新的需求。但無可否認,智慧化的底座在給IDC行業帶來從追趕到超越的更多信心。
來自 “ 數字時氪 ”, 原文作者:數字時氪;原文連結:http://server.it168.com/a2022/0322/6642/000006642079.shtml,如有侵權,請聯絡管理員刪除。
相關文章
- 大牛祕笈!谷歌工程師是如何改進訓練資料集的?谷歌工程師
- 未來的資料中心是什麼樣的
- 曾是“有史以來最暢銷遊戲”:收入50億美元的《模擬人生》是怎麼來的?遊戲
- HTTPS是怎麼加密資料的?HTTP加密
- 微信小遊戲爆款祕笈 資料庫MongoDB攻略篇遊戲資料庫MongoDB
- 誤刪了電腦資料怎麼找回來?
- Supercell分享:《荒野亂鬥》是怎麼做到全球收入破10億美元的
- AI儲存的需求是什麼?未來趨勢是怎樣的?AI
- 沒有“好的”資料,AI就沒有未來?聽聽雲測資料怎麼說AI
- 兩月收入過億,《荒野亂鬥》的吸金祕笈:極致精簡與技巧深度的平衡
- TCP中的資料是怎麼傳輸的?TCP
- AI新貴上位記:圖網路是怎麼火起來的?AI
- Web效能優化之瘦身祕笈Web優化
- 關於大資料到底是怎麼來的大資料
- SHAREit Group產品矩陣從0到全球24億使用者的增長祕笈矩陣
- C#是怎麼跑起來的C#
- 使用祕笈大公開 揭祕你不知道的瑞星安全隨身WiFiWiFi
- Databricks的16億美元融資對企業AI市場意味著什麼?AI
- “看起來不像手機”,Altman和Jony Ive的AI硬體公司擬融資10億美元AI
- 蘋果電腦中的特殊符號是怎麼打出來的小技巧!蘋果符號
- 碩士查重是怎麼收費的
- 揭祕!開發數字資產交易所來運營是如何賺錢的
- win10 我的電腦怎麼弄出來_win10怎麼把我的電腦弄出來Win10
- 未來的資料中心
- HTTPS是怎麼保證資料安全傳輸的?HTTP
- 企業怎麼防止資料洩露帶來的損失,瞭解怎麼做好資料安全
- 資料結構與演算法總是不得門而入?來看看我是怎麼學的吧資料結構演算法
- AI智慧與大資料的本質區別是什麼?AI大資料
- 面試官:一千萬的資料,你是怎麼查詢的?面試
- 程式猿“一鍵續命”大保健祕笈
- C輪融資1億美金,MetaApp的元宇宙是什麼來頭?APP元宇宙
- Synergy Research:2019年資料中心支出達930億美元
- 14億人吃的蘋果,怎麼種出來的?蘋果
- 指紋登入是怎麼跑起來的
- 8個要點5大核心要素,揭祕《隱形守護者》的成功祕笈
- 將老人拉出無聲的世界,AI是怎麼做的?AI
- 生成式AI:未來的發展方向是什麼?AI
- 誒,我的動態資料來源怎麼失效了