保險行業超融合產品選型和應用場景解析

SmartX超融合發表於2020-06-21

摘要:
泰康自 2017 年跟進超融合技術,在其穩定性和可靠性上積累了一些生產運維經驗和心得體會。本文透過對超融合技術的調研分析和應用實踐梳理, 希望 為保險行業對超融合選型和場景應用提供一些觀點和思考。

一、引入超融合技術背景及原因分析

泰康作為業內大型保險集團公司和金融科技領先者,在多年前即開始了新一代 IT 基礎架構的評估和探索。其原因一方面來自於集團業務數字化、網際網路化轉型對 IT 基礎架構的敏捷性、易維護性和總擁有成本提出了更高的要求,例如快速增長的網際網路資源池,以及大量的開發測試需求;另一方面,傳統的 SAN 儲存架構也在這樣的需求壓力下暴露出諸多弊端:

1 )資源交付效率低,週期長。不能滿足業務快速敏捷交付的要求;
2 )不能透過橫向擴充套件來增加效能;
3 )各品牌裝置差異較大,軟硬體緊耦合,管理介面不統一,增加運維難度;
4 )災備場景下,儲存異構難度較大;
5 ) TCO 整體成本較高。

針對公司的需求和新型 IT 技術發展, IT 部門一直在不斷探索將小型機、傳統儲存等基於專用硬體、開放性敏捷性比較差的傳統架構向基於 x86 伺服器結合虛擬化和分散式儲存,甚至容器和雲管的新一代軟體定義資料中心演進。 2014 年將 Hadoop 平臺執行在本地虛擬化平臺上, 5 年來該平臺執行穩定,並未出現效能相關問題。 2017 年瞭解到超融合靈活擴充套件、開箱即用的特點,其優勢有效規避了傳統 SAN 儲存的某些弊端,但是超融合不穩定和不可靠的聲音也不絕於耳。但是透過 分析保險應用特點,傳統大型應用經歷了 U2L 的歷程,以及微服務化和容器化,單機的高負載已逐步被弱化,同時搭配其他保障業務連續性的軟體(如 Zerto 、 V eeam ),核心生產跑到超融合產品上,已不是多麼可怕的一件事情。

傳統的保險公司也都在業務形態上悄然發生著轉型,泰康已不只是“保險 + 服務 ”的商業模式,正在用“保險 + 科技 ”打造科技型、服務型的新型網際網路保險公司,利用科技驅動業務。網際網路保險應用已成為新一代年輕人的首選。網際網路應用靈活多變的特性,以及保險行業常有的業務節點,如開門紅等,對開發和上線的速度,以及資源交付的時效,如何用最短的時間搭建一套可靠穩健的基礎平臺成為了關鍵,以及對投入產出比的分析,所以在認真評估後,泰康在 2018 年就開始在網際網路核心生產環境中引入超融合架構,目前系統已經經過了兩年的穩定執行,其架構優勢也在內部得到發揮。

二、超融合在保險生產環境可行性調研和方案選擇

因為超融合本身沒有延續傳統的計算、儲存、網路,所以很多 IT 人對這種架構有諸多疑問和顧慮,市場上概念也比較混亂,這裡介紹一些我們調研和評估的心得。

1 、分散式儲存是超融合架構最核心的價值的體現,也是變化最大的部分,因此也是評估該架構效能和可靠性的關鍵。

超融合架構的名字可能掩飾了儲存的重要性,導致一些使用者不知道評估的重點,但透過對比傳統架構我們能看出來,如果虛擬化繼續使用 VMware ,真正的變化就是用 x86 伺服器加分散式儲存軟體代替了傳統的儲存,而做 IT 的人都知道儲存對於整個 IT 基礎架構可靠性和效能的重要性,所以軟體定義儲存作為超融合架構的最核心的價值體現和關鍵指標,也應該作為架構評估和產品評估的重點。另外,因為虛擬化本身已經在企業內非常普遍和成熟,所以超融合架構很多優勢也都是由分散式儲存帶來的。

關於底層儲存,一些關鍵指標需要重點關注,
1 ) 路徑最佳化,支援資料訪問路徑最佳化
2 ) 資料分層,軟體自動將經常訪問的熱點資料放在 SSD 磁碟上,而將不常用的資料放在 HDD 磁碟上
3 ) 資料快照,儲存底層具有資料快照技術(非虛擬化軟體的快照),可實現對資料進行快照保護及快速恢復
4 )資料保護,具有完善的硬碟和節點資料保護機制,當發生硬碟乃至節點失效時不會影響資料正常訪問。

當然,作為超融合架構,畢竟也不同於伺服器和分散式儲存分離部署模式,如何將虛擬化和分散式儲存統一部署,並且保持高可用,甚至更優的效能和資源消耗,也應該作為這一類架構評估的重點。

2 、超融合 的 架構和特性都已滿足生產環境的需求,但 也 要關注具體廠商的實現和成熟度。

業內對於超融合可靠性以及超融合的應用場景也有很多聲音,其實從我們內部調研和使用的情況來看這些認知都非常過時了。上一個章節也分析了,超融合的穩定性有很大一部分都來自於分散式儲存,可以看一下目前主流超融合產品在分散式儲存架構和特性上的可靠性的保障。

1 )最核心的副本技術已經比較成熟,三副本的情況下允許兩個節點同時全部壞掉,這個冗餘度可以滿足生產環境需求,而且比雙控制器的冗餘度更高;
2 )分散式儲存的自動資料恢復比傳統儲存方式更高效智慧,能減少故障出現後的運維壓力;
3 )磁碟資料校驗,拓撲感知,甚至雙活等企業級儲存功能一線超融合廠商都已經具備,但目前採用超融合內建雙活的案例還比較少,相對而言,配合第三方成熟的虛擬化災備產品例如 Veeam 、 Zerto 等方案的案例普及度更高;
4 )作為超融合的架構,除了儲存本身的高可用性,還有儲存和虛擬化整合的部分的高可用性也需要關注,目前採用的分散式儲存控制虛擬機器的方式都有對應的高可用機制,保證單個儲存控制虛擬機器出現問題的情況下,本機上的虛擬機器的 IO 訪問路徑可以切換到其他節點。

在虛擬機器化軟體部分,大部分超融合廠商都在支援 VMware 虛擬化的同時提供了內建的基於 KVM 的免費虛擬化平臺,目前在主要功能上都能滿足需求,不過 VMware 的記憶體超分能力目前確實比 KVM 的記憶體管理技術要好很多,內建的虛擬化軟體雖然大部分提供了 VMware 向其平臺一鍵遷移的功能,但是使用者自身的習慣,以及對現有平臺的綜合考慮,大多數使用者還是用腳投票給了 VMware 。但考慮未來的成本降低和新技術的引入,以及國產化的需求,內建的虛擬化也可以重點評估和儲備。

3、軟硬體方案的選擇和實施等也有關乎可靠性和效能

雖然超融合對於通用 x86 伺服器都可以滿足,甚至可以利舊已有伺服器,但是要想有一個穩定的環境,首先,底層硬體的最好要統一一致,其次,超融合架構還有對 SSD 、萬兆等要求,並不是隨便幾臺 x86 伺服器 就能搭建一個超融合叢集,在方案選擇和配置 時 也需要額外關注。

三、超融合在生產環境中的應用實踐

經過評估,我 們 幾年前已開始逐步引入超融合產品,並將其首先應用於網際網路應用的核心生產環境中,並且同時也在開發測試環境、桌面虛擬化環境中進行部署。以下是一些我們應用的心得體會:

1 )目前一線專業的超融合產品的穩定性完全可以滿足保險業務生產環境需求,例如在網際網路應用中已部署了 16 節點國產超融合產品,穩定執行兩年,實現資源快速搭建和交付,滿足業務系統對資源池的需求;其中,有 8 個節點我們還使用了其內建的基於 KVM 的虛擬化,目前也執行情況良好。
2 )另外我們在開發測試也應用了大量的超融合節點。有些客戶認為開發測試平臺對效能和可靠性要求不高,可以用來嘗試超融合架構,其實我們內部的開發測試環境執行壓力非常大,每個物理節點有幾十個虛擬機器執行,負載遠高於生產環境,而且開發測試環境經常會涉及配置調整、變更,相對生產環境來說更為複雜。作為一名運維人員,誰敢說開發測試環境不是生產環境,測試環境發生任何故障,同樣會受到領導的“親切關懷”和靈魂拷問“影響範圍是什麼”“什麼時間恢復”,運維壓力同樣亞歷山大。
3 )超融合整體的優勢在各個環境中都體現的比較充分,包括:
A. 降低 IT 架構整體複雜度;
B. 架構橫向的彈性擴充套件伸縮能力和快速交付;
C. 各超融合廠家都支援通用標準 x 86 伺服器硬體,綜合成本比傳統架構要低;
D. 運維時面向一家超融合服務商,不用多家扯皮,運維簡單;
E. 軟體升級管理簡單。

最後,對於廠商的選擇方面, Nutanix 作為標杆產品,穩定性和可靠性等方面經常讓大家忘記它的存在,當然,價格也比較奢侈。國內超融合廠商近年也如雨後春筍般湧現出來,整體價效比較高,本地服務也很及時,例如 SmartX 作為國產頭部超融合產品供應商商也是業內使用較廣的廠商之一。

四、超融合的未來和其他方面的思考

超融合和私有云之間的關係:超融合解決的是基礎架構資源層面的整合問題,雲端計算是解決使用者交付的問題,目前各大公司都在自研雲管平臺,雲管平臺搭配超融合,超融合架構為雲端計算提供基礎設施服務在我們看來是未來企業搭建私有云的不錯選擇。

從職業發展角度,傳統的儲存管理員也應該考慮往雲端計算方向發展了,否則已經跟不上時代的發展潮流,就像當年的去 IOE 浪潮中,小機管理員也在探索新的技術方向, x 86 / 虛擬化 / 雲端計算等都是不錯的方向, DBA 也在學習 MySQL 等開源資料庫。

如今產品眾多,每家的技術實現細節不一樣,任何產品都有其侷限性,如何把資源用到正確的場景,把控風險,是考驗運維人員的經驗和能力。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69974533/viewspace-2699758/,如需轉載,請註明出處,否則將追究法律責任。

相關文章