新一代智慧節能資料中心實踐(三)— 液冷篇

張哥說技術發表於2023-04-26


當前大資料與人工智慧等技術正驅動著數字經濟快速發展,這對資料資訊的硬體承載者資料中心的需求和要求越來越高。隨著伺服器晶片不斷升級迭代、高效能晶片需求不斷增加、伺服器密集化程度越來越高,伺服器的散熱問題已經成為計算機技術發展的瓶頸之一。風冷技術已經成熟應用於晶片散熱方面,但有研究表明風冷的散熱極限僅為50  [1],且為提高散熱能力而提高風速所帶來的噪音問題和能耗問題也日趨嚴重。由於空氣作為冷卻工質的傳熱效能較差,而液體的比熱遠遠大於空氣,為了解決資料中心高效散熱問題,液冷解決方案應運而生。

本文將基於B站新一代定製化資料中心的實踐,從常規風冷散熱技術下的資料中心冷卻系統引入,與大家聊聊近年來資料中心高效節能技術路線中的高頻詞—液冷技術。


1. 資料中心冷卻系統技術介紹


資料中心中的電子資訊裝置執行過程中消耗的電能絕大部分都轉換為廢熱,若機櫃內的這部分熱量無法及時轉移到周圍環境中,機櫃內晶片和其他部件的執行溫度將急劇升高。對於典型通用計算伺服器,各元件中CPU的功耗佔比最大,散熱需求也相對最大,當機櫃伺服器內的晶片溫度升高至80℃以上,無法保證晶片穩定執行。因此,資料中心需源源不斷提供與伺服器散熱需求相匹配的冷量。當前,絕大多數的資料中心仍然採用風冷散熱技術冷卻晶片。


1.1  風冷散熱技術下的資料中心冷卻系統


大多數風冷伺服器包含以下主要硬體構件:CPU、記憶體、主機板、網路卡、儲存裝置、電源和冷卻系統(風扇+導流元件)等。伺服器內部透過風扇的佈局、風道的設計、CPU散熱片的佈置等熱設計來滿足其安全穩定執行的散熱需求。


新一代智慧節能資料中心實踐(三)— 液冷篇

 機架伺服器內部結構圖[2]


對於採用風冷散熱伺服器的資料中心,為保證資料中心IT 裝置的正常執行,需透過資料中心冷卻系統的設計和佈置,將IT裝置持續執行產生的熱量透過機房內的空氣和空調裝置管路中的媒介(水,空氣或其他冷媒)排至室外環境,從而穩定機房內空氣的溫度和溼度兩個重要指標在合理安全的範圍內。我國目前現行規範《資料中心設計規範》(GB50174-2017)對於資料中心推薦的環境引數如下表所示。


新一代智慧節能資料中心實踐(三)— 液冷篇


由於風冷散熱技術下的資料中心冷卻系統和電子資訊裝置僅透過環境中的空氣實現換熱過程,IT裝置和空調裝置的冷卻系統設計和日常運維可以很方便地實現解耦,因此較長時間裡,風冷散熱成為主流技術路線,風冷伺服器和與之適配的資料中心冷卻系統各自不斷進行系統和裝置部件的迭代升級,不斷提升IT硬體能效和資料中心冷卻系統效率。

資料中心冷卻系統可根據熱量轉移階段分為製冷冷源單元、冷量傳輸單元、末端散熱單元,不同資料中心根據當地氣候條件、電子資訊裝置型別、機櫃功率密度等因素選擇不同的製冷單元方案。目前常見的資料中心製冷冷源單元根據與外界環境和末端機房的熱交換媒介主要分為水冷冷水機組、風冷冷水機組、風冷直膨式空調機組、間接蒸發冷卻機組等;冷量傳輸單元對應可採用冷凍水管路、製冷劑冷媒管路、風管等;末端散熱單元可採用房間級精密空調、模組級列間空調、機櫃級背板空調等。


新一代智慧節能資料中心實踐(三)— 液冷篇

常用水冷冷凍水機組系統示意圖[3]


為直觀表示和對比不同資料中心的能效利用情況,一般採用資料中心電能利用效率(PUE)指標。資料中心電能利用效率(PUE)定義為資料中心總耗電量與資訊裝置耗電量的比值,該數值越接近1,表示資料中心能效能級越高。GB 40879-2021《資料中心能效限定值及能效等級》中將資料中心能效等級分為3級。PUE每減少0.1,若按照0.7元/千瓦時的電費單價計算,每10MW的IT裝置容量的資料中心每年執行產生的電費可節省610.3萬元。


新一代智慧節能資料中心實踐(三)— 液冷篇


以採用傳統的水冷冷水機組系統資料中心為例,下圖展示各環節能耗佔比情況[4],製冷系統能耗佔IT負載的36%,其中冷水機組的能耗又佔整個製冷系統的50%左右。為實現資料中心冷卻系統的高效節能執行,最直接有效的辦法是最大化利用室外環境的免費製冷,減少冷水機組的執行時間。此外,還可以透過對冷卻系統精細化設計、水泵變頻、節能空調裝置選型、施工工藝最佳化、運維策略動態調整等方法降低資料中心冷卻系統的能耗。但以上的最佳化過程涉及的環節和因素較多,將每一環節的節能效果發揮到極致難度很大,對於運營團隊的能力要求較高。


新一代智慧節能資料中心實踐(三)— 液冷篇

典型資料中心裝置能耗結構[4]


B站在新一代智慧節能資料中心專案中,考慮華東地區氣候情況及B站業務負載特點,冷卻主系統採用安全穩定、技術較為成熟的水冷冷水機組系統技術,部分割槽域製冷採用間接蒸發冷卻系統、高效磁懸浮氟泵系統,在相同氣候條件下全方位、全生命週期對比不同製冷系統的優缺點。目前冷水機組系統、間接蒸發冷卻系統、高效磁懸浮氟泵系統均已正式交付,資料中心的能耗水平將達能效2級。


 1.2 液冷散熱技術下的資料中心冷卻系統


1.2.1 什麼是液冷資料中心


資料中心液冷技術是使用流動液體將計算機內部元器件產生的熱量傳遞到計算機外,以保證計算機工作在安全溫度範圍內的一種冷卻方法。液冷技術並不是一項新技術,19世紀後便已出現各種形式的液冷應用,例如用於絕緣、冷卻超高壓變壓器、汽車冷卻發動機等,但其大規模部署在企業級資料中心的解決方案和案例並不常見。目前,資料中心液冷解決方案根據電子資訊裝置與冷卻液是否直接接觸分為接觸式液冷技術和非接觸式液冷技術,接觸式液冷技術主要分為浸沒式和噴淋式液冷,非接觸式液冷技術主要為冷板式液冷。


新一代智慧節能資料中心實踐(三)— 液冷篇


新一代智慧節能資料中心實踐(三)— 液冷篇

資料中心液冷系統架構示意圖


1.2.2 液冷資料中心的機會與挑戰


資料中心液冷技術作為一項革新性技術,既能實現資料中心的極簡設計和極致能效,又契合了伺服器晶片未來高功率的趨勢,在國家政策對於資料中心嚴苛的低能耗要求背景下,同時得到IT側和資料中心側的共同關注和支援。

對於IT裝置,液冷技術很好地解決高功率晶片的散熱問題,同時帶來晶片表面溫度的大幅最佳化,降低風扇的功耗,從而提升單位功耗下算力。

對於資料中心,液冷冷卻技術由於冷卻液的進液溫度設計可以相對較高(45℃以上),資料中心的冷源系統設計可取消冷機設計,從而實現全國範圍內全年利用自然冷源,大部分割槽域的資料中心可實現PUE低至1.15以下。同時,資料中心的峰值PUE的降低提升了資料中心IT產出,從而直接降低資料中心TCO成本。

此外隨著液冷技術的不斷升級和不同專業技術融合的不斷加深,資料中心的節能手段從以前的單純提高空調系統裝置能效轉向IT裝置與製冷裝置聯合最佳化調控,透過AI技術進一步實現資料中心全域性範圍的能效最優。

但液冷技術涉及多專業領域的協同和融合,在真正規模化應用道路上仍面臨諸多困難和挑戰,需要業內各方從標準制定、技術攻關、成本降低、運營實踐等方面推動新技術的切實落地和良性發展。


2. B站的液冷資料中心實踐


隨著AI等業務的快速發展,同時面對資料中心持續的節能降耗要求,我們基於B站業務快速發展的需求,一直在新型綠色智慧型資料中心技術創新方面進行著積極地探索和思考。考慮晶片技術的快速迭代升級,新型綠色智慧型資料中心技術不僅需匹配未來2~3代IT裝置功率需求,還需考慮大規模部署的安全可靠性。B站正按照“小步快走”的方式彈性快速地部署綠色智慧型資料中心技術,為公司的降本增效持續發力,為實現國家的節能減碳持續貢獻力量。

前期我們介紹了創新機房一期專案規劃間接蒸發冷卻包間和風液混合冷卻包間[5],其中風液混合冷卻包間的風系統採用高效磁懸浮氟泵系統,液冷系統採用冷板式液冷技術。預期滿載工況下,間接蒸發冷卻包間年平均PUE將低至1.23,風液混合包間年平均PUE將低至1.13。

冷板式液冷機房的規劃設計、施工工藝、測試方案、上架部署與傳統的風冷技術架構有相似之處,但同時也有很多特殊關注點。設計階段需考慮風液比、流阻、冷卻液的穩定相容性、漏液預防監控、快速接頭選型、控制邏輯、裝置管路的備份冗餘功能等方面;施工階段需重點關注管路質量、沖洗鍍膜等內容。冷板式液冷機房的測試驗證與風冷技術架構有很大的不同,需透過佈置特殊定製的液冷假負載,設計不同的測試場景綜合驗證系統的製冷能力、冷量分配均勻性、系統穩定可靠性等內容。冷板式液冷伺服器的上架部署需考慮伺服器快速接頭的佈局、冷板散熱和流阻特性,確定上架策略和冷卻系統執行引數。

目前B站一期的冷板液冷機房已完成施工、測試和交付,冷板式液冷伺服器的POC及灰度測試達30餘項內容,為後續液冷伺服器的正式交付業務使用奠定重要基礎。


新一代智慧節能資料中心實踐(三)— 液冷篇

B站定製化液冷機房現場測試


同時,B站一直重視行業內綠色資料中心技術的交流和合作。

B站深度參與編寫的《電子資訊裝置用液冷冷板技術規範》已於2023年3月15日正式生效[6]

2023年3月17日,由CDCC和益企研究院共同主辦的2023中國資料中心液冷技術峰會在北京舉行,會上B站與行業各方共同啟動《資料中心液冷系統技術規程》的編制[7],為更好促進液冷技術落地貢獻B站力量。


新一代智慧節能資料中心實踐(三)— 液冷篇

2023中國資料中心液冷技術峰會現場


3. 結束語


面對資料中心散熱和能耗問題,透過使用液冷技術實現資料中心的綠色低碳發展已成為業內共同的探索方向,B站作為技術創新者和實踐者,正穩步推進液冷技術的落地,同時不斷對行業標準和規範進行輸出,與行業內各方加強合作交流,共同推動新型節能技術在資料中心行業的發展。


參考:

[1] 諸凱, 劉澤寬, 何為,等. 資料中心伺服器CPU水冷散熱器的最佳化設計[J]. 製冷學報, 2019(2):7.

[2]金超強. 基於伺服器功耗模型的資料中心能耗研究.

[3] 微信公眾號: 資料中心運維管理. 圖說資料中心空調系統原理和架構

[4] 侯曉雯,李程貴. 空調系統節能方案在資料中心中的應用[J]. 通訊電源技術, 2020, 37(12):5.

[5] 新一代智慧節能資料中心B站定製化專案實踐(二)

[6] 關於釋出《伺服器及儲存裝置用液冷裝置技術規範 第1部分:冷板》等四項團體標準的公告:

[7] 開啟資料中心液冷應用新時代——首部液冷工程類標準全面開展編制工作


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2948827/,如需轉載,請註明出處,否則將追究法律責任。

相關文章