超融合架構與產品選型的選型評估過程及實施方案

SmartX超融合發表於2020-06-03

作者 簡介:

匡嶽林 招商證券資訊科技中心高階經理,資料庫&儲存工程師

長期致力於資料庫運維,儲存規劃等工作,對資料庫最佳化,儲存分級管理等有豐富經驗,近年來緊跟分散式資料庫,分散式儲存等新興技術,對分散式資料庫和分散式儲存的落地使用有獨到的心得。

摘要:

本文透過分析招商證券為何在數字化和智慧化時代變革下選擇超融合架構、產品選型的評估過程,並分享超融合架構運維的心得體會,如實地講述了超融合架構在招商證券落地並取得良好的效益及超融合架構中分散式儲存模組的關鍵作用,希望對未來計劃落地超融合架構的同行有借鑑的意義。

1.  背景分析

1.1 招商證劵原有IT架構概述

招商證券近年來一直非常關注如何透過金融科技提升公司各項業務指標以及整體競爭力,並從開發、運營到決策進行了大量數字化和智慧化轉型的工作,自然對IT基礎架構部門也提出了更高的要求。基礎架構的虛擬化、雲化已是如火如荼地改造進行中。

IT基礎資源存在三種型別的虛擬機器:1.VMware、Hyper-V、KVM等虛擬化工具生成的虛擬機器;2.超融合生成的虛擬機器;3.私有云生成的虛擬機器。不同的虛擬機器型別,都有其具體的使用場景:

virtual-machine.png

1.2 為何評估超融合架構

考慮引入超融合架構主要有兩個方面的原因,一方面是超融合我們很早就在關注,透過和主流廠商的交流,看到近幾年相關產品從功能到案例已經比較成熟。另一方面,原有的架構尤其在儲存方面暴露的問題較多:

1)傳統的儲存上線比較慢,而且隨著數量和品牌越來越多,運維也比較複雜;

2)擴充套件性不好,不同的儲存池之間的資源使用也不均衡,所以每次需求都要做較長遠資源規劃和相應預算;

3)從採購、使用到後期維保的成本偏高。

在2017年,我司某些業務需要擴容新的IT資源,系統初期設計的方案為10臺PC Server+2臺磁碟陣列+2臺光纖交換機,各專家一致認為其成本較高,專案的成本收益比較低,而且採購上線需要的週期較長,所以藉此機會,公司內部系統評估了超融合產品,相對於傳統部署架構,超融合具有資源彈性、敏捷部署、資源利用率高、擴充套件簡單方便等優點。據測算,如果部署超融合架構,我們可以在不影響使用者使用體驗的前提下多部署3-5倍的系統,故最終選擇超融合方案。

2.  超融合架構中儲存的重要性分析與評估

2.1傳統儲存架構和超融合儲存架構對比

相對於傳統的架構,由於超融合的架構包含了儲存、虛擬化、網路甚至伺服器(一體機模式)等諸多模組,可能會無法找到評估的要點。但透過下圖的架構對比可以看到,超融合架構影響最大的還是儲存的部分。

hci-vs-vmware-fc-san2.png

相對於傳統架構,超融合架構有以下幾個大的區別:

  1. 儲存從集中的控制器架構演變為分散式架構,相當於每個伺服器都成為一個控制器,另外,每個節點都會配置SSD盤作為快取;
  2. 使用標準和易於維護的x86伺服器與萬兆乙太網交換機替代專有的儲存硬體和網路;
  3. 儲存不再是由 RAID 構成的不同儲存空間,而是一個統一的可彈性擴充套件的儲存池,並且具備更強的擴充套件能力;
  4. 計算虛擬化和儲存部署於同一伺服器節點。

以上對比可以看出,儲存的架構,儲存軟硬體構成和儲存部署模式都發生巨大的變化,而作為 IT 人員,我們非常清楚,儲存在整個系統中的地位,不僅關乎業務連續性和資料可靠性,還直接影響到系統執行效率。另一方面,超融合帶來的價值,例如彈性擴充套件,高併發效能等,其實都是分散式儲存帶來的。基於此,分散式儲存成為對各超融合廠商的產品評估的重點。

2.2 超融合架構的分散式塊儲存評估的要點

對於超融合架構的分散式儲存評估,我們主要從架構、實現、功能、實際的POC、案例情況進行了評估。

2. 2.1  商業產品還是基於開源

目前國內超融合的玩家比較多,但如果從核心的儲存來分的話就比較清晰,基本上國外的Nutanix、VMware等都是清一色的商業產品,國內除了SmartX,其他大部分廠商都是基於Ceph,GlusterFS等開源產品。我們內部的選擇是商業的產品,原因如下:一方面是該架構計劃在生產系統使用,我們希望原廠有真正的掌控和開發能力,而不是被動跟隨開源社群。另一方面,類Ceph架構資料管理機制比較擅長海量的物件,對於IOPS和時延要求較高的場景並不適合,相對於而言,Nutanix、SmartX的架構基於主要是圍繞結構化儲存專門設計的,相關場景下效率更高。

2.2 .2  可靠性驗證

雖然目前分散式儲存的副本技術已經非常成熟,但我們還是針對具體的產品進行了比較多的可靠性相關驗證,包括磁碟、整個節點等層面的故障模擬,另外,針對超融合特殊的部署方式,我們對分散式儲存所在的控制器虛擬機器的高可用也進行了故障模式,並從虛擬機器角度評測業務的恢復時間,相關測試結果都達到了生產系統的要求。

2. 2.3  效能

超融合架構下的效能優勢主要來自於以下方面:

1.分散式的架構提升聚合效能;

2.每個節點的SSD快取目前容量已經可以比較大,大部分情況應用都可以獲得SSD的訪問效能;

3.因為採用了超融合部署的模式,VM可以直接訪問本地的儲存,減少訪問網路的延遲,這是超融合獨有的優勢,並不是所有的分散式儲存都具備這樣的特性,例如Ceph採用雜湊演算法分佈資料,沒有辦法實現資料的精準放置,目前Nutanix和SmartX都支援這樣的特性。

透過以上架構和實現的最佳化,例如SmartX超融合單節點實測4K隨機讀效能當時已經可以超過4萬IOPS,而目前如果將SSD換成NVM E介面,單節點的4K隨機讀可以超過 9 萬IOPS,對於最小系統的三個節點的話,已經可以接近目前中端的全閃的產品,如果擴充套件的話還可以做到更高。

關於超融合架構的效能,還需要關注的一個點就是分散式儲存對資源的消耗是否合理,例如Ceph的資源消耗就比較高,也是不適合超融合架構的一個原因。

2.3  結論

除了以上重點指標,我們還針對可擴充套件性,運維便利性進行了充分的評估,整體的結論是目前一線的專業超融合產品已經可以滿足生產環境的需求,並最終選擇了5節點 SmartX超融合用於滿足新業務需求,而這一部分,在內部我們也是歸屬到分散式塊儲存池的部分。

3.  超融合架構實踐效果和心得體會

在引入超融合架構的兩年中,SmartX叢集已被擴容至8個節點,一直以來都執行穩定。有約半年的時間整個叢集儲存使用率超過90%,甚至最高峰的時候達到了99%。該叢集仍然能夠穩定執行,沒發生過故障及資料丟失。除了執行穩定的優點外,產品體現了以下幾個優勢:

1.系統的可擴充套件性確實非常好,招商證券在兩年內先進行了一次 SSD 和硬碟的擴容,然後進行了一次3個節點擴容,並且這次擴容採用了不一樣的伺服器品牌,CPU、記憶體、SSD都不一樣,但SmartX超融合也可以很好的支援統一管理(這個是很多產品不能支援的);

2.故障視窗小,可靠性高,發生硬碟或者節點故障後,恢復時間僅為傳統架構的 30% ;

3.運維更簡單,只需運維標準x86 伺服器+萬兆交換機+SmartX超融合軟體,運維壓力減少了很多,IT人員可以把精力放在新技術的評估和使用上;

4.相比傳統架構,採購成本降低30%,有效降低採購成本。

5.超融合儲存使用率必須低於100%-1/N*100% (N是節點數),使用率超過這個閾值,當節點當機並不可修復的時候,會出現資料丟失。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69974533/viewspace-2695920/,如需轉載,請註明出處,否則將追究法律責任。

相關文章