保險私有云 IaaS 資源池選型與演進之路 | SmartX 客戶實踐

SmartX超融合發表於2022-03-15

文章導讀

SmartX 某保險行業客戶基於超融合構建了私有云 IaaS 平臺,在近四年的時間中分階段實現基礎架構雲化轉型,陸續將應用場景從外圍生產擴充到核心應用,進而擴充套件到 MySQL 資料庫、Oracle 資料庫。

(全文約四千字,閱讀大概 7 分鐘)


作者:某人壽資訊科技部 儲存工程師劉健


自 2002 年成立以來, 我司目前已在全國開設了 23 家省級分公司,業務範圍覆蓋全國 80% 的人口區域。隨著業務擴張與網際網路時代的到來,支撐業務發展的 IT 基礎架構在穩定可靠的同時,也需要不斷適應業務敏捷性的需求。


在此背景下, 我司自 2018 年起開始探索基於超融合的私有云 IaaS 資源池,在部署了開發測試、生產業務之後, 在業內率先將重要生產業務的 Oracle 資料庫(含 RAC)遷移至該平臺,實現了一套架構對敏態、穩態業務的支撐。


建設背景


我司原有 IT 基礎架構以物理伺服器加中高階儲存架為主,面臨架構複雜、專案建設成本高、執行維護複雜、系統故障率高、系統擴充套件性不足等諸多問題。通過對同行業機構 IT 基礎架構情況的多方面瞭解,可以看到越來越多的保險公司選擇進行  IT 基礎架構的分散式、雲化轉型,進一步適應當前的市場環境和需求,提供更加彈性、敏捷且強健的基礎架構;而傳統集中式架構的使用空間和場景正在逐步減少。


在此背景下,基於我司的業務發展需要和行業技術發展趨勢,我們明確了 IT 基礎架構的轉型方向:


  • 軟體定義:打破傳統 IT 基礎架構構建方式,即伺服器+儲存+網路的三層集中式構建方式,IT 基礎架構以軟體定義為中心,擺脫硬體限制。

  • 彈性敏捷:效能和容量可按需投資、靈活擴充套件,資源可根據業務需求快速上線。

  • 穩定可控:新型架構的效能與穩定性需要能夠支撐關鍵業務系統(如資料庫應用),且廠商應是掌握核心技術的中國廠商,為後期的國產化替代打下基礎。

  • 輕量開放:小規模起步,降低運維管理的複雜性;同時,在硬體、虛擬化、第三方管理平臺上有更多選擇。


根據以上原則,結合 IT 技術發展趨勢與行業應用情況,我們最終確認 基於超融合架構建設企業級私有云 IaaS 平臺的轉型思路。


評估選型


作為一種基於軟體定義且融合部署的創新型 IT 架構, 我們關注的超融合架構的主要特點包括 :


  • 通過軟體定義的方式,圍繞 x86 標準伺服器構建, 同時分散式技術具備架構高效能、易擴充套件、易維護的特點 ;

  • 內嵌了計算虛擬化(基於KVM), 部分廠商同時也可以支援其它虛擬化產品(VMware、XenServer),具備良好的互整合性 ;

  • 將分散式儲存和計算虛擬化整合到同一臺物理伺服器,資料 IO 路徑實現最大優化,提供更好的效能表現 ;

  • 超融合叢集 3 節點起步,節點擴容可以線性增加叢集整體效能輸出 ;

  • 基於標準硬體,相較專有裝置,降低運維複雜度 。


在充分的前期技術調研後,我們認為超融合架構滿足基礎架構轉型的目標要求,同時,能夠 與集團雲管平臺對接,實現資源流程自動化生命週期管理,提高運維效率


同時,我們發現市場上的超融合產品非常多,既有傳統老牌硬體廠商、雲服務提供廠商、國際知名廠商,也同時不乏一些專注於超融合領域的專業廠商。


對於一款超融合產品來講,計算虛擬化層的變化相對較少,主流的計算虛擬化技術就是 VMware、KVM、Xen,而除了 VMware 提供的虛擬化產品之外,其他廠商提供的計算虛擬化產品基本都是使用 KVM 進行商業化開發。


但是,對於超融合的核心—儲存虛擬化(分散式塊儲存)層,各家廠商的差別就比較明顯了。經過研究,我們發現市場上超融合廠商的分散式儲存模組可以分為兩個發展方向,如下:


  • 自主研發類(如 VMware、Nutanix 、 SmartX )

  • 基於 Ceph、Gluster 等開源產品進行二次封裝類


基於開源產品進行二次開發的產品的後續迭代能力不足,不掌握核心技術,面對中等以上規模公司複雜的架構設計和軟硬體相容性需求,應用系統特異化儲存讀寫需求等,只能採取規避方案和替代方案,無法從技術底層解決適配性問題 。因此, 擁有自主研發能力、核心程式碼自主可控的產品和技術是我們所需要的。


另外,對於我司來講,還有兩個重要的考量指標,第一是原廠售後服務質量,即是否可以提供原廠的售後服務支援?核心問題是否可以得到研發級別的快速響應?第二是是否可以支援多種虛擬化平臺,因為在後續的持續轉型過程中,虛擬化平臺轉型的並不是一蹴而就的,在不同階段仍然會保留一些系統執行在 VMware 虛擬化平臺上。


綜合以上考慮及實際 POC 情況 (通過綜合對比主流的 Nutanix 、 VMware 、 SmartX 、華為的超融合產品) ,我們在基於技術 自主研發深度 、效能穩定可靠性、各虛擬化平臺相容性、硬體選型配置靈活性、軟體規劃配置簡潔性、軟體系統管理易用性、以及成本等多維度對比優勢。最終選定基於 SmartX 超融合構建私有云 IaaS 平臺,分階段實現基礎架構雲化轉型。


應用場景演進


具體到技術落地的路 地,本著大膽設想小心求證的思路 , 我們 2018 年開發測試環境部署若干節點並優先使用超融合內建的 KVM 平臺,開發測試環境包含了我司所有的業務的樣本環境,包括各種作業系統版本, MySQL 、 Oracle 、 SQL Server 等資料庫平臺,在使用一年後充分驗證了從 VMware 到 KVM 資料遷移的可行性和穩定性,驗證產品自身的可靠性、效能等技術指標,與廠商現場服務人員、二線技術人員多次充分的技術交流,確認產品、服務、價格以及公司的未來發展,完全滿足在我公司生產業務中大規模部署推廣的要求。從 2019 年到 2021 年經過 3 年持續推進使用多場景應用,從外圍生產應用、核心應用的路線。我司在此基礎之上,在行業內率先將應用場景擴充套件到 MySQL 資料庫、Oracle 資料庫。應用演進過程如下:


一期:構建開發測試叢集(混閃架構)

二期:構建生產系統叢集-1(混閃架構)

三期:擴容生產系統叢集-1(混閃架構),構建生產系統叢集-2(混閃架構)

四期:擴容生產系統叢集-2(混閃架構),同時構建了資料庫資源池叢集支撐 MySQL DB(全閃架構)

五期:構建資料庫資源池叢集支撐 Oracle DB 包含 RAC(全閃架構)

截止目前, 我司超融合系統平臺共搭建 5 套超融合叢集,執行上千臺虛擬機器伺服器 。


從支撐開發測試到支撐生產系統演進


在 2018 年第一次使用 SmartX 超融合叢集承載開發測試環境後,叢集一直穩定執行至今, 平均每個節點承載開發測試虛機數量可達 60+,實現了建設之初定下的對開發測試環境進行整合重建的目的。


除了執行穩定之外,通過 2018 年針對“團險銷管”系統的容器化改造契機,我們發現, 同樣的系統執行在超融合搭建的測試環境中可以獲得數十倍於傳統架構的資料庫查詢效能,進而對實際的系統使用者來講,可以明顯提升使用感受。通過與我司 DBA、SmartX 技術專家的共同研究探討發現,超融合架構的 IO 本地化以及使用 SSD 作為快取層等技術特性對於資料庫查詢類應用增益明顯。這個發現進一步增強了我們將超融合架構應用於生產系統的信心。


不過,對於將一項新的基礎架構推廣到生產系統,我們還是採取了穩健的方式。首先將生產應用進行拆分,將一部分虛機遷移到超融合搭建的生產系統叢集-1,另外一部分仍然保留在傳統架構之上,前端通過負載均衡進行分流。這樣,既能進一步檢驗超融合架構執行生產應用的實際效果,又能保證在極端情況下生產系統的穩定可靠。

在經過半年多的實際驗證後,我們對於超融合架構的信心進一步增強,團隊成員對於新架構的熟悉度也進一步增強,於是在 2019 年中,我們著手部署第二個生產叢集,開始逐步接替原有的傳統架構, 將生產系統在兩個超融合叢集間進行負責均衡,整體架構依然是穩定可靠的

截止目前,我們已經將 幾乎全部的生產系統(應用)部署在兩套超融合叢集上,包括個險核心、團險核心、個險個則引擎、團險規則引擎等。


從支撐生產系統到支撐核心業務資料庫演進


通過近 3 年的實際使用感受以及在“團險銷管”系統改造過程中的測試表現,我們對於超融合平臺支撐資料庫是很有信心的,尤其是 MySQL。但是公司內部仍然有很多重要系統、核心系統使用 Oracle 資料庫,對於超融合平臺支撐 Oracle,我們秉承了一貫的謹慎處理方式,一是沿用當前的 VMware 虛擬化平臺,二是進行了非常充分的效能及穩定性測試。


我們使用的測試工具是Swingbench。在長時間(8小時)壓力測試中,無論是單庫還是 RAC,效能、延時均可保持穩定,通過 SmartX 自帶的監控平臺觀察,在整個壓測過程中,CPU、記憶體負載平穩,儲存效能輸入平穩,符合預期。


在效能測試環節,分別測試 200-500 併發使用者情況下的效能表現,無論單庫還是 RAC,TPS 均可保持在 19000+~22000+ 範圍,延時會隨著併發使用者數增加略有增長,整體效能表現符合預期。


基於以上的測試結果,我們也有理由相信,超融合平臺可以支撐 Oracle 資料庫的執行。目前擁有兩套資料專屬叢集如下:


  • 資料庫資源池叢集支撐 MySQL DB(全閃架構)。

  • 資料庫資源池叢集支撐 Oracle DB 包含 RAC(全閃架構)。


我司的相關的資料庫遷移過程還在持續進行中,未來可以分享更多的使用經驗和感受。


建設收益


基於超融合架構的企業級私有云 IaaS 平臺通過整合計算、儲存、網路資源, 有效降低了我司資訊系統基礎架構建設總體成本與系統故障率,並進一步提高了系統敏捷性和可靠性。在三餘年的持續轉型下, 我們總結了超融合架構帶來的如下收益 :


第一,從總體擁有成本來看,基於超融合的分散式架構具有顯著的 成本優勢。該架構對原有的 VMware 虛擬化平臺進行了優化整合替代,使用乙太網交換機替換了 FC 交換機,一臺伺服器節點 既提供儲存能力,也同時提供計算能力, 不僅減少空間佔用超過 50%,同時提升服務能源效率超過 30%,實現節能降碳的目標


第二,從運維人力成本來看,該專案使用統一的平臺進行管理,操作簡單,售後保障及時。我司 僅需要配置 1-2 名運維人員即可完成日常運維工作。可以將更多的人力投入到其他創新型專案中去。


第三,該架構具備更好的彈性和敏捷性,實現按需投資和資源按需快速上線,從而更好提升機構對客戶需求的響應速度,進而 提升使用者滿意度


第四,使用 國產自主研發的分散式儲存方案進行企業私有云 IaaS 資源池搭建,將為我司的國產化替代之路打下堅實的基礎。


第五,相比於伺服器+集中儲存的傳統架構,超融合架構的 IO 本地化、SSD 快取等技術特性帶了更多的效能提升; 全分散式的部署模式,使得叢集 IO 效能再增加節點後可以獲得線性增長


第六,解決了長期困擾我公司基礎架構面對的儲存高可用難題,傳統儲存高可用保護建設需要大量的成本支出,需要大量的專業技術人員維護資料同步保護系統,以及定期驗證演練等。使用超融合架構多叢集分散式管理,只需要 多部署 1-2 個節點即能解決儲存高可用難題


第七,管理便捷,與 VMware 平臺面向資源管理開發不同, SmartX 的虛擬化平臺在兼顧資源管理的同時,大幅增加面向使用者的易用性設計, 使用超融合系統的統一管理平臺, 實現多套叢集統一監控、統一排程資源,線上滾動升級、硬體即插即用等,秒級快照建立,秒級資料恢復極大提升資料保護能力,提高系統整體可用性,釋放人力成本。


總結


超融合架構同時實現了企業基礎設施的分散式雲化轉型和虛擬化以及儲存的國產化替代,並且基於穩定的核心和全棧效能優化開創性的將資料庫(包括 MySQL 、Oracle)遷移到基於超融合構建的雲化資源池執行。通過實踐探索,該專案也驗證了 基於超融合的輕量分散式雲化 IT 基礎設施具備支撐核心資料庫的能力,為企業更加全面的分散式雲化轉型提供了重要參考價值。超融合系統作為下一代基礎架構的基石技術,順應技術更敏捷、更高效的發展趨勢,未來 3-5 年,配合業務系統容器化改造轉型,完成容器雲平臺建設,以及分散式資料庫技術日趨成熟穩定,我公司所有核心業務將全部過渡到超融合平臺。


點選下載 金融行業使用者超融合轉型實戰合集。該合集收集了 TWT 等技術社群中,來自銀行、保險、證券等金融行業客戶技術專家親自撰寫的超融合轉型實戰文章。內容涵蓋不同場景中評估超融合技術路線、部署產品、評估超融廠商等多個方面。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69974533/viewspace-2871096/,如需轉載,請註明出處,否則將追究法律責任。

相關文章