導讀:朱華,騰訊資料中心技術發展中心總監,中國工程建設標準化協會資料中心技術委員會副主任委員,中國通訊標準化協會開放資料中心委員會資料中心工作組組長,榮獲中國工程建設標準化協會頒發的2018資料中心青年科技人才獎。11月30日,朱華在2018資料中心年度峰會上發表了演講,以下為演講內容。
談起資料中心下一個風向的探索,我想借此回顧過往這十年,騰訊資料中心對技術發展的探索歷史。
1.一石多鳥的高壓直流
2008年到2010年,為了解決電力轉換效能的問題,我們在鹽城電信趙老師實驗室的基礎上,發起了240V高壓直流替代UPS的技術架構改造專案。這是一個重構低壓配電架構的過程。起初我們步履維艱,而如今BAT已經有數百萬伺服器執行在這個配電架構上了。
有意思的是,原本我們意在節能,結果獲得更大收益的是運維的便利性和執行的可靠性。縱觀整個行業,所有使用這個配電架構的資料中心,從未因高壓直流出現嚴重問題而影響業務,反觀UPS配電架構,故障頻出,經常導致業務損失慘重。
2.初嘗標準化和產品化的甜頭——微模組
2011年到2012年,我們完善微模組的架構,解決了IT模組內的標準化和部分結構產品化問題。微模組改變了原先IT模組內的工程做法,顛覆了以往資料中心的建設分工介面和模式,甚至打破了產業原先的格局。到如今,每年微模組的產量為約為5000套。
3.萬法歸宗的諾曼底模型
到了2013年,騰訊的在青浦和深汕開展大規模資料中心建設,需要規範大型(10-15萬伺服器規模)資料中心規劃設計的方法論。因此我們發起了一個代號“諾曼底模型”的探索專案。這個方法論,就是一套邏輯演算法。它解決了一個最重要的問題——解釋每個資料中心建設需求的邏輯,讓需求提得明白,讓設計院畫圖畫得明白,讓總包建設得明白,讓運營方接管得明白。所有專案從建築到機電建設都是一個統一標準。這樣也就讓甲方、設計院、總包、驗收方等所有相關方理解一致,方向一致,把資料中心當成一個標準的工業品而不是一個獨特的藝術孤品。
4.製冷裝置要去水化、去工程化、產品化,更要本土化
早期騰訊在天津嘗試了airside freecooling的技術,這個技術在美國較為成熟,但是到了中國卻表現出水土不服:空氣中的有害物質直接進入機房,損耗了IT裝置。怎樣才能既充分利用外界的冷量,同時又不讓IT裝置直接暴露在外?2015年我們在貴陽實驗室引進了中國第一套來自德國GEA的空空換熱的製冷裝置,並對其做了適應中國的技術改造,從而大獲成功。這種技術交換熱量而非交換物質——它通過工程高分子材料或者金屬材料,使內部空氣和外部空氣進行熱量交換,但是氣體卻是隔離的。如今,這種裝置已經完全可由中國製造,在效率上不輸於進口產品,成本卻是完全折半的。行業已經大規模應用,整個產業鏈也已興起。這種技術的探索成功,收穫遠不止節能本身。由於這種間接製冷的方式是去水化、去工程化的,所以它放棄了大型的水冷機組,也就是去掉了錯綜複雜管路工程。我們的製冷裝置終於走上產品化的道路!
5.資料中心整體標準化和產品化的產物:T-block
實現製冷裝置的產品化,讓我們有機會探索資料中心整體產品化。2016年我們推出了T-block技術,設計了製冷方倉、IT方倉、電力方倉、中壓方倉,整個產業鏈也隨之跟進。至此,資料中心能夠以完全產品化的方式進行建設和交付。
6.諾曼底模型再進化—— Tbase模型
2018年,為配合全國的拿地大規模自建,我們將“諾曼底模型”方法論進化為新的大型和超大型園區的建設方法論——“Tbase模型”,以應對30萬伺服器及以上規模的資料中心規劃和設計。
這十年的探索,我們一直堅持走模組化、標準化、產品化的道路。這是一個漸進的過程,也伴隨著產業鏈的跟進和培養。重構傳統的架構、顛覆傳統的建設方式的路上充滿著不為人道的艱辛。
1.人工智慧時代對資料儲存、計算、運輸的更高要求
至此,在硬體層面,我們似乎已經到了一個自我突破的瓶頸和天花板,其實不然。資料中心作為基礎服務工業,會面臨一個新的發展時期——萬物互聯的人工智慧時代。以往這些年,熱度極高的雲端計算、大資料、物聯網的發展,其實都是為了這個萬物互聯的人工智慧時代做了嫁衣,為這個時代的橫空出世奠定了基礎。
人工智慧的實現,依存於幾個基礎條件:①海量的儲存能力②更先進的演算法③大容量、大頻寬的通訊通道。大資料作為人工智慧的原始依據,雲端計算進行高能計算和儲存,物聯網提供無所不在的資料採集場景,5G以極低時延的進行高速傳送。
2.春江水暖鴨先知——網際網路巨頭迎戰新時代
最近阿里和騰訊的組織架構調整,從名字上都能看出端倪:阿里新成立的BG名字後面加了”智慧”。而騰訊雲調整後,BG名字加上了“智慧產業”。自此雲不再是獨立的存在,而是帶著應用場景的存在。應用場景是做增量,而過往我們大部分是做存量。存量意味著對原有IT的關停並轉,伴隨著大量改造和遷移的艱難困苦。過程量終究是過程量,成敗之關鍵在落地的產業。
3.資料中心管理軟體發展的階段:從門面、輔助管理轉向生產管理
面臨新的機遇,資料中心作為一個行業的分支,實現萬物互聯的人工智慧資料中心,需要軟硬兩手。硬體已經準備得七七八八了,那麼軟體呢?資料中心,我們真正的需要什麼樣的智慧大腦?無人值守和人工智慧的平臺,需要具備哪些先決條件以及能夠落地的場景?這是我們需要探索和實踐的下一個方向。
在這裡,先回顧一下以往的發展情況。我羅列了資料中心管理軟體平臺發展的三個階段,總結來看,過往發展得很艱苦。
第一個階段是在2000-2010年,這時候的典型代表產品,就是動環以及機房3D呈現,市場的總價值在1-10個億。我們的甲方也沒有重視這一塊,從常用的招投標模式就可以看出,這通常是放在總包裡一帶而過。廠商們更注重以酷炫的3D視覺效果去掙得甲方的眼球,並無實用。這段時期,我歸納為“門面系統階段”。
第二個階段,2011-至今,這個時期的典型代表產品,就比較豐富。DCOM、DCIM、DCSM、DCRM開始從裝置、人、流程的角度去把控資訊,並且以資料和報表呈現,去進行裝置健康管理、資產管理、簡單的成本和容量管理。市場的總價值在10-50億。甲方也開始獨立地準備技術規格書,獨立分包和招投標。這段時期,我歸納為“輔助管理系統階段”。
第三個階段,就是我們大家需要一起去探索和努力達到的,結合資料中心的硬體產品,它的市場的價值或可超過1000億。這個時期,我把它歸納為“生產管理系統階段“。它將再一次顛覆運維的大部分模式、習慣以及組織分工介面。少人值守、無人值守、人工智慧將資料中心的運維管理系統提升到生產管理系統,其重要性不可同日而語。
4.整裝待發的產業鏈
產業鏈對於新時代到來的準備充分嗎?首先我們來看各種感測器的準備情況:這個時代,我們需要大量的便於部署的感測器,來當我們的眼睛和耳朵,我們需要無線且無源的,大家看,從測溫、測速、測噪音、測定位、測汙染以及熱成像,甚至各種控制器、執行機構都應有盡有,產業已經張開懷抱迎接我們的探索和革新了。
5.無人值守的應用場景:安保、巡檢、裝置的監與控
① 安保:
這裡我們簡單列舉幾個人工智慧無人值守的應用場景:我們從人力比較密集的安保人員開始,向科技要人力,減少安防人員眼看、手摸、跑腿等工作。事前,我們使用安防安保機器人,大量部署高清視訊攝像頭,通過主動監控防禦,提前劃定監控區域,界定重要物品監控列表,對火災重點防範區域進行布控。事中,我們通過演算法對人的行為進行預判,對可疑人員、可疑物資進行預警。事後,我們可以快速分析和提取資料。有著人工智慧的機器人,比人更可靠,比人更吃苦耐勞而不知疲倦和躲懶。這一個場景的應用,我們的目標是在超大型園區減少一半的安保人員配備。
② 巡檢:除安保外,人工智慧的應用可以取代部分日常巡檢的工作,這些帶著各種感測能力的機器人可以在日常巡檢中實時傳遞視訊、聲音、味道,這些資訊傳輸到後臺與基礎設施原先的採集資料進行比對和有益補充。這個場景的應用,我們的目標是減配基礎設施巡檢人員近三成。
③ 裝置的監與控:實現無人值守,需要大量的自動化執行機構,這是我們重點強化的區域。最近,我考察了很多的裝置廠家,對於電力的自控,我們現在可以使用電操,操控列頭櫃的開關,使其能夠按照我們的指令執行機櫃的開關電。在演練或者大面積故障時,從中壓側一直到低壓側,從柴油發電機到機櫃都可以做到遠端自動執行。
實現無人值守和人工智慧,有一個特別切題的應用場景,這就是製冷自動控制場景。在間接製冷產品化後,空調去水了,從原先異常複雜繁多的控制器件,簡化到數十個控制器件,大大降低了自控和智慧的門檻。我們可以根據不同地域、不同場地,優化我們的演算法,實現精細化管理,把製冷的狀況調整的最優,實現節能和穩定的運維環境。這是一個重點,同時也是我們探索的關鍵。
針對裝置監控管理,我這裡列舉一個電池健康管理的案例。眾所周知,資料中心裡所有的裝置可以分為三個大類,一個是化學類,一個是電子類,一個是機械類。化學類的是最容易也是最快進入故障高發階段的,而且化學類的裝置一旦出現故障是最要命的。而對電池的裝置健康管理是最典型的對“化學類”裝置的管理。我們採集電池的電壓、內阻、溫度三個狀態量,20秒一次,一天就是一萬多條資料,一年就是差不多5百萬條資料。一條資料是個點,一系列資料就是線,我們現在監測近10萬個電池,那就是一個異常龐大的資料立面。這個時候,我們可以不用人為的經驗來判斷,可以顛覆原先的因果關係,直接憑藉這個立體的海量資料來判斷這個電池是否存在異常,是否要更換。平臺可以直接發出處理的指令,防患於未然。
《黃帝內經》說道:“是故聖人不治已病治未病,不治已亂治未亂。”面對海量巨型複雜的資料中心,現在的人類的科學人工智慧的方式,正是體現了這種事前管理,消除隱患於未然的古人思想之精髓。