【FIW2022 精彩回顧】方正富邦基於超融合構建核心資料庫資源池的探索與實踐

SmartX超融合發表於2022-10-19

9 月 21—23 日,第一屆“金融現代化 IT 基礎架構轉型論壇(FinTech Infrastructure Wave 2022)”成功舉辦。該論壇由中國資訊通訊研究院雲端計算與大資料研究所、《中國金融電腦》雜誌社主辦,北京志凌海納科技有限公司(SmartX)與北京鯤鵬聯合創新中心協辦。論壇分為三大專場,覆蓋銀行、保險、證券、基金、期貨、信託六大金融細分行業,內容涵蓋多雲平臺建設、核心業務系統信創轉型、超融合關鍵場景落地、核心業務 K8s 改造、資料中心零信任安全、基礎設施即程式碼等前沿話題。

方正富邦基金管理有限公司基金運維經理牟世強發表了主題為“ 超融合構建核心資料庫資源池”的演講。

文丨方正富邦基金管理有限公司 牟世強

方正富邦基金管理有限公司(以下簡稱“方正富邦”)成立於 2011 年 6 月 30 日,是首家獲證監會批准設立的兩岸合資基金管理公司。

方正富邦的業務具有以下特點。一是方正富邦的公募基金產品主要包括權益類和固收類,也有一定量的專戶產品,其中固收類產品的佔比高於權益類產品,對接的使用者主要是機構使用者,直銷櫃檯的使用者相對較少,量級在千人左右。二是方正富邦官網客戶端的使用度不是很高,OLAP 場景多於 OLTP 場景,系統後臺任務的特性決定了 OLTP 中單筆事務處理的時間較長,對磁碟的吞吐要求很高。同時,業務場景併發低、虛擬環境下資料庫 CPU 的開銷低。

基於上述特徵,透過超融合虛擬化技術可以滿足大多數應用場景的需求。

一、傳統 IT 基礎架構部署挑戰

方正富邦的傳統 IT 基礎架構主要分為核心生產資源池和一般生產資源池,核心生產資源池是由 4 臺惠普的 DL580 伺服器加上 EMC VNX 5600 混快閃記憶體儲組成的 SAN 架構,承載的業務主要包括核心交易系統 O32、TA、估值等系統對應的資料庫。

一般生產資源池是由 4 臺惠普的 DL580 伺服器加上 EMC VNX 5500 混快閃記憶體儲組成的 SAN 架構,可支撐轉碼機、報盤機。辦公環境主要執行在刀鋒伺服器和 VNX 5500 上。

在資源池分開的情況下,資料庫仍然面臨著資料過於集中的問題,且儲存系統常出現單點故障。此外,儲存的使用率越來越高,容量和效能都無法滿足業務發展。

在此背景下,方正富邦 IT 基礎架構轉型以實際需求為出發點,採用成熟先進的技術裝置去建設實用、穩健、可靠的技術架構環境,同時這套環境也要便於運維、易於擴充套件。

二、超融合部署演進過程

方正富邦自 2017 年起開始接觸並瞭解超融合技術,2018 年採購了 5 個節點構建一般業務資源池,主要執行一些輕量應用,如報盤、轉碼機及交易所閘道器等應用;2019 年採購了 4 個節點用於構建辦公業務資源池,該資源池承載了 90% 以上的辦公類應用;2020 年再次採購了 4 個節點用於搭建資料庫的專用資源池,並在其上執行了 8 套以上的資料庫叢集,其中包括估值、風控、監管報送、基金資料中心(CC)、直銷等系統。

2021 年,一般資源池的角色定位得到加強,增加了容災加固的屬性,其容災架構如圖 1 所示。方正富邦的核心生產資源依然執行在集中儲存上,其中,資料庫是透過資料庫的同步技術在容災資源池上構建實時副本,再透過非同步複製,在深證通行業雲上構建非同步副本。

圖 1 方正富邦資源池容災架構

同時,方正富邦在 2020 年新構建的資料庫資源池上也採用相同方式,在容災資源池上構建了實時副本,在深證通行業雲上構建非同步副本。

未來,方正富邦計劃將核心系統跑在超融合上,傳統的三層架構環境將作為容災資源池。為此,方正富邦針對超融合在關鍵業務資料庫上的效能進行了驗證。

三、關鍵業務資料庫跑批效能驗證

方正富邦資料中心的資料量大概有 2.4TB,已經超過了超融合單節點的 SSD 快取容量,後臺執行跑批任務時,有時會發生擊穿的情況,導致任務完成超時,進而影響系統處理。

CC 系統的主要作用是集中處理分析來自多個業務系統(如直銷、估值、TA 等)的資料,用以滿足業務部門使用和分析挖掘資料的需要,如市場營銷、客戶管理、運營支撐、報表報告、投研策略等。本次效能驗證以 CC 作為測試資料庫,主要是為了測試在高速快閃記憶體,即 NVMe 介質的配置下超融合的效能表現,同時也為後續核心業務系統(如 O32、TA 等)在技術架構選型上提供一些參考。

本次測試方法主要是比較 NVMe SSD 的配置和傳統的 SATA SSD 混閃下超融合的效能,測試用例是方正富邦的資料中心繫統,同時把近兩個月的歷史資料匯入測試環境,每天模擬,手動觸發後臺任務,和生產上跑出來的時間進行比較。測試環境的配置為 48 Cores、256GB 記憶體加上 3.2TB 的全閃(如圖 2 所示)。

圖 2 測試環境配置

測試拓撲圖由三個節點組成,後端網路是 25GbE,生產的伺服器配置在計算資源上,比如 6326 的 CPU 、512GB 的單節點記憶體,都高於測試環境,唯一的差別就是生產環境使用的是 SSD 快取加上機械盤的儲存。

由於是測試伺服器,使用的測試機快取容量有限,單節點為 3.2TB,總容量大概為 9.6TB,再去除副本,可用容量為 4TB 左右。

從任務跑批驗證資料對比(如圖 3 所示)可以看出,在單任務跑批驗證上,CC、估值資料落地,測試環境最快達到了 5 分 21 秒,而生產環境最快是 37 分鐘。在多工跑批驗證上,測試環境每項任務的用時都優於生產環境,且測試環境的總用時為 31 分 42 秒,生產環境的總用時是 176 分鐘。單任務跑批和多工跑批的執行時間差距如此之大,可能是在混閃配置下,任務並行使得機械盤 I/O 被佔滿,導致任務出現暫停狀態,後面的順序任務也就無法執行了。

圖 3 任務跑批驗證資料對比

從 CPU 的負載監控資料(如圖 4 所示)可以看出,CPU 的使用率在部分時段存在 70%、50%、30%、20% 等持續時間的連續負載壓力,非常符合跑批場景下的特點,CPU 等待部分時段佔比較高,通常情況下在 I/O 密集型的應用等待佔比會高一些,對應儲存負載的監控也能佐證這一點。

圖 4 CPU 的負載監控資料

從儲存負載監控資料(如圖 5 所示)可以看出,峰值大概在 1.5GB/s,此時會出現持續讀取壓力,其餘時間存在多次較高的突發訪問量。結合之前 CPU 監控資料使用率和等待佔比來看,儲存效能就是跑批場景下最關鍵的效能影響因素。

圖 5 儲存負載監控資料

最終測試結論是:得益於超融合架構、NVMe 高速硬體介質、後端 25GbE 的高速網路等因素,以及超融合 I/O 本地化特性最佳化了儲存讀寫效能,測試結果相比於當前的生產環境有較為明顯的提升。

本次的測試結果為後續 TA、O32 等核心業務系統遷移到超融合環境中提供了參考依據。測試期間,超融合儲存空間使用率達到 96%,多次測試的結果之間效能差異在秒級,可以看到,SmartX 超融合架構在高負載場景下依然可以保持著可靠穩定的效能輸出。

四、經驗分享

在使用超融合構建核心資料庫資源池的過程中,方正富邦總結了以下經驗以及注意事項。

一是相比於集中儲存,超融合對前期的規劃要求更高,需要明確業務場景、叢集的使用性質,避免因虛擬機器體量太大、儲存資源不足造成計算資源浪費,或者出現密集型的應用對計算資源要求高導致前期配置效能不足的情況。

二是在虛擬環境下,透過克隆方式打造資料庫作業系統基礎環境,可以大量節約平時環境搭建的時間。

三是資料庫的基礎資源、CPU 及記憶體可以伴隨虛擬機器的特性隨時調整。傳統“物理機 + 儲存”的採購方式,在開始採購硬體時,需要留出很多可擴充套件的空間,容易造成前期投入資源的浪費。

四是超融合部署簡單,可以在很大程度上縮短業務上線時間。在實際的生產環境中,不考慮商務因素,從到貨、搭建再到實時上線,有時能在一天時間內完成這些工作。

五是虛擬化主機維護時需要資料庫關機,因為基於多寫入器的核心資料庫不支援線上 vMotion,所以維護主機時,跑在上面的資料庫伺服器需要關機重啟。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69974533/viewspace-2919248/,如需轉載,請註明出處,否則將追究法律責任。

相關文章