從 IaaS 到 HaaS:京東雲的新“硬盒”

老王發表於2019-09-23

從 IaaS 到 HaaS:京東雲的新“硬盒”

作為一個曾經親自扛著 2U 伺服器進長安街長話機房的系統工程師,我對伺服器的感情是深厚的,當撫摸著冰冷的裸金屬,感受著機房內嗡嗡的背景噪音時,似乎能感覺到資料的流動。因此,當得知我的採訪物件是國內第一個伺服器硬體開源專案的總架構師陳國峰先生時,我還是有點小激動的。

國峰是一個十分低調的人,現任京東雲硬體研發總監,他曾在百度工作,負責過百度硬體架構設計的相關工作,如百度的“北極”整機櫃伺服器、百度網盤用的冰山伺服器、百度 AI 所使用的 X-MAN 異構計算伺服器等就是其帶領團隊研發的成果,他也曾任開放資料中心委員會“天蠍”專案的總架構設計師。這十來年的硬體設計經歷,讓這個行業“老兵”對於網際網路的基礎設施——伺服器,有著獨到的見解。

京東雲硬體研發總監 陳國峰

演進:從複雜到簡單的伺服器

我最早接觸過的伺服器是 Sun 微系統的 Sparc 小型伺服器,並沒有見識過最早的大型機MainFrame。隨著網際網路的發展,作為網際網路迅猛發展的重要基礎設施,伺服器的形態也逐漸演變,從塔式伺服器、刀片式伺服器,再到機架式伺服器,我們可以看到伺服器的發展從高成本向低成本演進,由複雜變簡單,由高技術壁壘向無技術壁壘演進。

就好比手機的演進過程,從一開始使用模擬網的大哥大,到後來使用數字網的手機(現在我們稱之為功能機),再到現在的智慧機,可以看到,手機的技術在急速進步,技術壁壘在迅速降低,生產成本也以不可思議的速度降低。而在伺服器硬體方面,我們同樣發現,現在的機架式伺服器與原來的大型機相比,亦是如此。

從另外一個角度來看,隨著市場需求的不斷加大,我們對於伺服器硬體的看法也逐漸發生了變化。從過去每個網際網路公司最重要的硬體資產就是昂貴的伺服器,到如今伺服器已經成為了基本的生產資料一樣普遍和隨處可見。

以前對大機和小機追求的高可靠性、高穩定性,以及由此產生的高成本,隨著雲端計算技術的普及,對單個伺服器基礎設施的穩定性和可靠性也在降低。網際網路應用系統可以透過軟體、叢集的方式,來提升可靠性和穩定性,透過軟體上的容忍度,對叢集的容忍度會變高,透過這些上層的手段來避免對於底層基礎設施的過度追求。相應的,隨著對於基礎設施的要求的不斷降低,硬體設計的成本自然而然的也就降了下來。

變化:源自真實場景的需求

京東雲的下一代伺服器也並非完全憑空誕生,而是源自於實際需求的變化。

在過去,使用機架式伺服器依然有大量的工作需要在機房內由人工完成,比如一個月可以在一個機房內交付 1 萬臺機器,一年 10 萬臺左右的規模。在過去的產業模式下,這種機制尚可持續,但如今的 HyperScale 模式下,這樣的交付效率顯然無法滿足業務對於大規模資料中心的部署要求。

另外,隨著雲端計算的興起,雲的場景也開始多元化,傳統的公有云開始衍生出混合雲、私有云……這樣就會誕生另外一個場景,私有化的部署,包括邊緣部署。這種部署是很分散的,不是集中式的。對於這種分散式的部署,我們更需要的是一體化整合的整機櫃伺服器,避免把很多部署的技術資源分散到各個地域和零散的點上面去。然而云使用者,特別是私有云和混合雲使用者對硬體的穩定和配合功能往往也會有不同的訴求,這給傳統的整機櫃伺服器提出了新的挑戰。

為此,國峰帶領他的團隊,設計出了京東雲下一代伺服器。

在他看來,下一代伺服器必須具備以下幾個特性:

  1. 高穩定性。在過去私有云的時代,總擁有成本(TCO)是伺服器定製的核心訴求,而在雲的時代,為使用者提供高可靠的基礎設施是京東雲的基本服務宗旨,所以,我們把高穩定性放在第一位,而不再是簡單的將成本放在第一位。
  2. 高靈活性。公有云就意味著你的客戶也是千人千面,不同於傳統自用私有云,公有云客戶需求的多元化是不可避免的,因此,基礎服務就必須有足夠的靈活性,以適配這種來自需求的靈活性。這也是為什麼京東雲下一代伺服器要採用模組化設計的概念。
  3. 高效率。對於當前複雜的雲市場,公有云,私有云,混合雲多種場景並存的市場下,提供一體化交付,並且快速響應客戶的資源需求也是產品競爭力的一項重要指標;高效另外一個層面的含義是高能效,能效是資料中心技術中的又一項重要指標,直接影響基礎設施的運營成本;因此高效率也成為硬體基礎設施的重要特性。
  4. 低成本。任何產品都避不開成本,成本是產品市場的核心因素,影響到產品的核心競爭力,但是,在雲的場景下成本管控應當是在為客戶提供了高穩定性、高靈活性、高效率之後考慮的事情。

HaaS :Hardware as a Service

和我們所熟知的裸金屬、異構計算不同,京東雲下一代伺服器是比裸金屬和異構計算更底層的基礎設施服務。確切地說,不管是裸金屬還是異構計算,包括上層的 IaaS、PaaS、SaaS 等服務都可以在京東雲下一代伺服器上呈現。

京東雲將會圍繞著下一代伺服器打造公有云、私有云、混合雲、全方位的雲產品。一方面,這些底層的硬體服務會服務於京東集團內部的自用私有云,同時也會服務於集團的公有云業務。另一方面,針對私有云和混合雲,也可以對外提供私有化交付。如果客戶有需求,京東雲可以將這些定製的硬體結合京東雲的 Iaas、Paas、SaaS 相關技術和產品做成整體解決方案,交付給客戶。針對不同的客戶需求,京東雲可以圍繞定製化伺服器硬體和MDC(整合IT,供電,製冷一體方案)提供租、售產品服務。這就是我們所謂的 HaaS 的理念和概念。

挑戰:技術的進步

當然,下一代伺服器並非一蹴而就,所面臨的挑戰主要分為三個方面:

第一、設計理念——高靈活性,因為使用者的需求不可預測,使用者場景複雜,租用機房較多,每個機房基礎設施條件不一樣,同時業務型別複雜,資源調配遷移需求比較多,而目前主流的整機櫃與通用機相比,無論從 21 英寸的尺寸還是集中的散熱方式都有很大的差異,造成了整機櫃部署的侷限性,很難實現靈活遷移,混合部署。京東雲的下一代伺服器透過“標準化,模組化,彈性化”,極大地提高了多場景支撐的靈活性。首先我們採用 42U 19 英寸標準機櫃為設計單位,節點獨立散熱,通用性強,實現了整機櫃和標準機架伺服器任意切換。其次,節點前 IO 設計,機櫃後部無任何線纜,所有運維工作均可在冷通道進行,單邊維護效率更高,環境更友好。同時透過模組化設計,可實現前後 IO 靈活切換,集中供電和單機供電模式靈活切換。

從 IaaS 到 HaaS:京東雲的新“硬盒”

第二、也是這個行業面臨的通用性技術挑戰——高功率密度問題。因為現在晶片行業已經進入到後摩爾定律時代了,意味著計算力的提升也會帶來功耗的不斷提升。功耗的上升,對於系統散熱設計的挑戰就會越來越大,風冷已經不足以滿足目前的製冷需求,甚至散熱某種程度上已經制約了伺服器和資料中心的發展。所以,在新的架構設計上,我們會透過一些新的散熱手段,比如透過風液混合散熱的方式解決功率密度的問題。

第三,功率密度提高之後,風扇轉速就會更高。同時由於硬碟的儲存密度不斷上升,對於外部環境的振動、噪聲的敏感度就越來越高。所以我們在設計上對於硬碟和風扇振動需要考慮得更多,我們採用了“硬碟前置,風扇後置”的系統架構,最大程度的拉開風扇和硬碟之間的距離,有效的降低了震動對硬碟的影響。

從 IaaS 到 HaaS:京東雲的新“硬盒”

開源:硬體開源任重道遠

軟體是開源領域的主力,雖然已經有一些開源硬體的出現,但是,仍然算不上主流,絕大多數團隊在硬體方面依然採用傳統的閉源方式。

在這個方面,我專門請教了國峰。在他看來,首先,必須承認硬體開源的發展遠不如軟體開源。硬體開源是最近幾年興起的,國際上比較知名的組織就是 OCP(Open Compute Project),以及國內比較知名的 ODCC ,其前身是 BAT 三家發起的天蠍專案。

他認為,之所以過去大家不做硬體開源,主要是兩個原因:

一方面,原來硬體的技術壁壘相對較高,大家希望透過這些技術壁壘來創造價值,來實現商業變現,所以,之前市場上一直沒有硬體開源的社群和專案。

另一方面,硬體跟軟體有一個很大的不同點,軟體的程式碼一旦寫好,在機器上直接執行就能知道是否可以工作,硬體不一樣,要驗證一個硬體系統的設計,首先要從原理圖上設計出來,然後在工廠生產出來,最後進行驗證。它的週期長,同時需要大量實物的投入,投入成本相對比較大。此外,還需要有很多專業裝置做測試,除錯,所以,它的驗證成本也非常高。這也是為什麼硬體開源難以發展起來的原因。

但是,隨著時代的變化,市場的不斷變大,技術的開放力度也在不斷的增強,技術壁壘也相應在不斷降低,成本也越來越低。眾人拾柴火焰高,一個新的硬體出來之後有更多的人參與進來,它的上下游的生態就會建得更快一點,普及週期就會變得更短。

這也是為什麼京東雲下一代伺服器要做硬體開源的原因,我們希望建立和維護這樣的生態,把大家拉到一起共同推動新生態的演進。

當然,開源也並非易事,要開源首先必須得做好充分的準備來接受市場以及行業專業人士的檢驗。目前京東雲正在為下一代伺服器的開源做準備。接下來,京東雲也會圍繞其新的硬體設計建立一些開源的渠道,比如 OCP、ODCC 等。

京東雲希望透過硬體開源,讓行業裡面更多相關經驗的從業者參與到下一代伺服器的硬體設計中來,共同圍繞新的伺服器架構營造一個合作共贏的生態。

相關文章