厚積薄發:探尋磐久伺服器M系列研發之路

陶然陶然發表於2022-01-27

  2021年10月,杭州雲棲大會,阿里雲正式對外推出自研磐久伺服器家族,將基礎硬體創新與上層雲產品軟硬體一體化,從而為客戶提供更多選擇,助力客戶業務創新。

  2021年雙11、雙12期間,全新自研磐久伺服器M系列首次上線執行,應用於電商等多個重要核心場景,順利支撐了電商業務的峰值流量,效能和穩定性均超預期。

  從雲棲首發到兩次電商流量洪峰考驗,阿里雲加大底層基礎技術的自研邏輯是什麼?磐久伺服器M系列是什麼?有何獨特技術優勢?筆者帶您一起走進磐久伺服器M系列研發背後的故事。

   開端:8年鑄劍 砥礪自研

  從雲棲大會首次釋出,到順利通過雙11、雙12兩次電商流量洪峰考驗,磐久伺服器M系列不僅證明阿里雲實現業界最快的ARM架構伺服器自研和業務上線執行,更是阿里雲伺服器研發團隊多年來砥礪創新、深耕自研的結果。

(磐久伺服器M系列)

  2014年,阿里雲伺服器團隊開始在內部針對ARM架構在資料中心上的應用進行探索,業內所有面向資料中心的ARM處理器都在阿里的核心產品和業務場景中進行過測試調優和驗證,當時,阿里積累了豐富的應用經驗和大量效能資料,成為國內針對ARM架構在資料中心應用探索的先行者之一。

  “研發最開始是一股熱情,但到後面發現困難重重”,時任研發小組負責人、阿里雲伺服器研發資深專家陳義全回憶8年前的研發過程說到。研發小組面臨的第一個挑戰是對如何對原有MySQL資料庫、ODPS、機器翻譯、電商交易等應用進行大規模程式碼移植、適配和調優,當時可沒有如今高階的AI工具幫忙,幾乎所有的程式碼移植和適配工作都得靠研發小組手動操作。例如,MySQL應用驗證初期遇到整機吞吐效能只有主流平臺50%問題,陳義全帶領團隊幾乎從零開始,深入分析原始碼和熱點函式,結合ARM架構特點,快速找到瓶頸點,並使用ARM彙編重寫了部分MySQL核心時間、鎖等函式,最終實現整機吞吐與主流平臺持平。

  研發團隊通過攻克一個個難題,積累了豐富的效能資料和寶貴的實踐經驗,為後續自研伺服器和處理器的設計剷平了很多障礙,開創性地解決了眾多難題,並在2016年實現了部分自有業務在ARM架構上小規模執行,用很短的時間實現了阿里雲伺服器歷史性飛躍。

   從被動到主動 超越下一個超越

  2021年雲棲大會上,阿里雲正式釋出自研磐久伺服器家族。其中包括磐久高效能運算、磐久高效能儲存和磐久大容量儲存三大系列。但磐久伺服器-M系列又是什麼呢?M系列是磐久伺服器中ARM架構專屬分類,未來會全面覆蓋高效能運算,高效能儲存,和大容量儲存等機型。

(磐久伺服器家族)

  阿里云為什麼要全面自研磐久伺服器呢?這應該要從今天的雲端計算趨勢說起。

  近幾年來,雲原生業務呈現爆發式增長,給企業原有的基礎設施帶來了很大挑戰。廣義雲原生是指因雲而生的軟體、硬體和業務架構。而落到基礎設施這個層面,主要的挑戰則是,基礎設施要真正具備敏捷、彈性、高穩定性和高利用率等特性。

  說起雲原生大家都不陌生,但對於雲原生硬體或雲原生伺服器基礎設施的解讀,業界說法不一。在陳義全看來,“說到底,雲原生伺服器基礎設施,就是面向雲業務場景的需求,深挖IaaS層面,通過軟硬體一體化,實現極致效能和極致可靠性,真正做到硬體資源彈性,而不僅僅客戶看到的資源彈性。”

  今天,資料中心的算力需求和2014年已完全不同。8年來,陳義全和其研發團隊一路前行,如今已拉通業務、產品和硬體研發三線團隊,基於前端客戶對雲原生業務的需求分析,以及最新的伺服器架構和晶片的潛心打磨,最終落地阿里雲磐久伺服器-M系列。

  如何讓業務更加簡單,整個算力資源更加彈性和快速,整個基礎設施或者整個業務執行更加穩定,這正是阿里雲一直追求的。而做到這一切,則需要打造適合雲原生的伺服器、網路以及資料中心,大幅提升計算和儲存效率,實現雲原生所需的極致彈性和價效比。作為雲產品的基礎底座,過去幾年,阿里雲基礎設施團隊通過自主研發持續重構軟硬體之間的系統介面,部件和整機系統,打造最高效的伺服器和網路基礎設施。聚焦到伺服器技術領域,阿里雲基礎設施走過了小型機、行業標準伺服器、規格定製伺服器和自研雲原生伺服器這幾個時代,最新的磐久伺服器-M系列則是目前雲原生時代最新的伺服器技術實踐之一。

  如何設計最高效的伺服器硬體系統和CPU以獲取最佳的處理能力和高能效比,是業界自研伺服器所面臨的最大挑戰,但這對於阿里雲來說反而是最大的優勢。

  阿里雲在自研雲原生伺服器和定製處理器上具有很長的歷史積累和技術沉澱。首先,基於雲端計算對雲伺服器和處理器的要求,阿里雲聯合業內主流處理器供應商開展了多代的處理器定製,獲取了基於業務場景的遠高於主流處理器的價值收益。其次,阿里巴巴百萬級線上伺服器規模,有各種應用場景下的效能模型和成本模型,而豐富的業務場景,如彈性計算,雲端儲存,大資料及分散式系統等方面積累了海量的效能資料和歷史問題總結經驗,這些資料沉澱為雲原生伺服器和處理器的設計提供了系統架構和微架構的指導。

   穿刺未來,全自研基礎設施部署

(2021雲棲大會磐久伺服器釋出現場)

  今天,阿里巴巴豐富的業務場景和客戶需求對雲端計算技術基礎提出了極致效能和高能效的要求,而阿里雲磐久M伺服器釋出則為全棧雲基礎設施填補上了最基礎的一環。通過將伺服器架構、軟硬體協同、作業系統、資料庫和中介軟體等基礎軟硬體能力有機結合,並通過阿里巴巴上層紛繁複雜的業務場景錘鍊,必將為使用者提供更具價效比的雲端計算資源和更易落地的雲服務解決方案,為客戶創造價值共同成長。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2854235/,如需轉載,請註明出處,否則將追究法律責任。

相關文章