銀行專家分享:生產關鍵系統儲存建設落地實踐

帶你聊技術發表於2022-12-12

【摘要】儲存架構升級的關鍵在於平穩投產落地。關鍵系統作為企業IT系統中,重要程度最高、範圍涉及最廣、業務資料最多、場景差異最大的應用系統類別,對儲存架構的設計及落地帶來了較大的挑戰。本文透過闡述銀行業關鍵系統儲存架構的應用場景、設計原則、投產實施及運維管理等重點內容,讓讀者對銀行業關鍵系統儲存的落地實踐情況有所瞭解。

【作者】晝者,某省農信資深技術經理,經濟學博士,高階經濟師,銀行從業17年,在全行數字化轉型變革中,參與了科技發展規劃、組織架構調整、管理流程設計和重大專案建設,為業務與科技的融合之路,進行了有益的探索。帶領團隊獲得了10項發明專利和7項軟體著作權,2項作為第一發明人,多次獲得監管部門科技獎項。

引言

儲存架構升級的關鍵在於平穩投產落地。沒有最好的儲存技術,只有最適合的儲存解決方案。在儲存架構方案設計時,需從行內實際情況出發,對標行業最佳實踐,充分利用廠商資源,做好技術的延續性、做好架構、產品、效能、維護和費用之間的有效平衡。

關鍵系統儲存架構設計階段,應重點關注儲存型別、容量、組網及高可用容災等關鍵點。在投產實施及運維管理階段,需關注現網調研、實施視窗、資料遷移、回退方案、投產跟蹤和常態化演練機制、日常運維機制、智慧運維工具和健全運維生態等重點方面。


一、銀行業關鍵系統對儲存的需求場景及功能特點

一般來說,銀行業按照應用系統重要等級可以分為核心、重要、外圍及管理、資料分析等類別,其中核心及重要類系統通常稱為“關鍵系統”。根據關鍵系統處理事物的特性,可以分為OLTP(聯機事務處理過程)和OLAP(聯機分析處理)等類別。聯機事物處理方式、資料量大小、系統重要程度等差異均會對關鍵系統儲存架構提出不同的需求。


二、關鍵系統儲存架構的設計原則及關鍵點

1. 關鍵系統儲存架構設計的原則

儲存架構的設計既要滿足未來業務發展需要,技術發展趨勢,也要在總體技術風險可控的前提下,對現有架構進行平滑升級,解決當前架構瓶頸。關鍵系統所用儲存架構的建設總體原則應根據不同應用對儲存效能和容災的訴求進行儲存選型。按應用的業務重要性及對RPO、RTO不同要求,重新規劃應用主機和儲存對應關係,對應不同級別容災方案。

需要注意的是,沒有最好的儲存技術,只有最適合的儲存解決方案。因此,在儲存架構方案設計時,需從行內實際情況出發,對標行業最佳實踐,充分利用廠商資源,做好技術的延續性、做好架構、產品、效能、維護和費用之間的有效平衡。

2. 關鍵系統儲存架構設計的關鍵點

2.1 儲存型別

按照關鍵系統類別及特性選擇集中式或分散式儲存,可根據關鍵系統重要性、需求特點及價效比選擇全閃、混閃及傳統機械盤儲存。

2.2 儲存配置及容量

儲存的單機配置決定著儲存架構的整體效能。通常在儲存架構規劃時採用“高階低配”(高階機型、中低配置)策略進行儲存選型,在保障技術先進、效能強大的同時,降低維護期因儲存技術落後、效能不足而帶來的最佳化和擴容等風險較大操作的頻率,同時高階機型也能夠得到原廠商更大售後服務支援。所替換的老舊儲存可用於開發測試或外圍類系統使用,保護既有投資。

容量規劃方面,根據現網儲存容量、歷史增長率以及未來增長率等指標來綜合評估。以儲存池為單位,根據當前容量大小,將近3年最大年增長率作為未來5年年均增長率進行估算,在此基礎上再預留20%-30%可用容量。

2.3 儲存及應用組網

在滿足技術先進性的前提下,保障技術選型穩定性和高可用性,確儲存儲網路架構穩健、保障業務系統效能。在實施過程中以資料完整性為核心保障體系,按計劃完成容災方案為目標,儘量減少業務系統影響,降低對業務系統的影響。

根據裝置情況,從需求、容量、效能、可用性和管理性幾個方面詳細設計,重點考慮儲存池類別、吞吐負載、關聯耦合性,尤其需要提前規劃交換機埠分配規則、Zone分配規則、跨資料中心級聯設計。

2.4 高可用及容災

儲存架構是全行容災方案的重要基礎。儲存架構方案的設計需要根據全行整體容災建設思路,結合儲存特性和業務特點統籌規劃,以確保滿足監管及全行所需RTO及RPO指標。在實際制定儲存規劃方案中,有以下方面需重點關注。

一是儲存3DC架構的建設思路。儲存3DC架構已是各大儲存產品的標準功能架構,也是各行業容災方案中均採用的成熟儲存容災解決方案。但在實際使用中,需根據各行現網容災架構、資料中心間距離、空間、頻寬質量、人員分佈等因素綜合考慮。

一般來說,儲存3DC架構在物理地點設定上有兩種方案,一是本地、同城和異地各一臺儲存,三者間形成3DC容災架構(價效比較高、容災整體架構較為靈活);二是本地(2臺雙活)和同城(1臺)組成容災架構(維護難度較小,可以最大程度應對本地主中心儲存故障),架構圖示例見圖一。

二是各資料中心承載容災功能的選擇。在金融監管部門要求及傳統銀行容災方案中,主中心、同城中心及異地中心根據所承載的容災功能情況,可以分為“大同城、小異地”和“小同城、大異地”。以“大同城、小異地”為例,“大同城”指以雙活模式構建兩個同城資料中心,透過部署必要的軟硬體裝置,逐步實現既能兩個中心共同承擔業務,又能單箇中心獨立承載全部業務。“小異地”指建立異地災備資料中心,在發生區域性災難時,保障金融機構關鍵業務的持續運營。

三是儲存網路組網。最佳化煙囪式架構,FC SAN網路採用core-edge架構,透過分層實現計算、儲存資源池化,更利於向雲化演進。儲存池間資料互聯互通,應用共享所有儲存資源。SAN及應用組網架構圖示例見圖二。

四是高可用及容災方案的選擇。容災體系規劃應該從業務視角為出發點,以終為始的制定各類業務系統RTO和RPO,找準各容災技術定位,透過各容災技術組合做好備份冗餘,按照業務類別和技術特性搭好容災技術體系框架,做好容災技術頂層設計。

銀行專家分享:生產關鍵系統儲存建設落地實踐

圖一:同城3DC儲存容災架構圖

銀行專家分享:生產關鍵系統儲存建設落地實踐
圖二:SAN及應用組網架構圖

三、關鍵系統儲存投產實施及運維管理

1. 關鍵系統儲存投產實施的關鍵點

1.1 現網調研

對現網架構的伺服器多路徑、儲存相容性、資料量、網路頻寬、可用視窗、影響範圍等進行詳細調研。針對現網應用系統及基礎架構等差異,科學制定投產的方式、批次等投產實施方案。

1.2 實施視窗

由於遷移變更內容多,操作複雜,關鍵系統磁碟較多、操作時間較長,導致整個操作時間視窗有可能超出正常維護視窗時間。可以透過科學制定Runbook、操作指導書、操作命令、非影響業務的情況下提前開展、分階段分批實施等措施,科學規劃操作時間視窗。一般可根據各應用系統的業務邏輯、實施視窗、資料儲存和儲存類別等耦合程度,在實施風險可控前提下,規劃實施階段和批次。

1.3 資料遷移

資料遷移是儲存新架構投產的關鍵步驟。在儲存資料遷移中需重點關注資料一致性、業務完備性和系統相容性。科學安排資料遷移策略,靈活使用資料遷移工具,透過遷移演練等多種措施,儘量減少停機視窗和停機對客戶服務體驗的影響。

由於資料遷移適用場景較多,業界積累了較為全面的資料遷移步驟,我行與儲存廠商結合業界實踐經驗,將儲存資料遷移工作進一步完善,總結為4個階段,17個實施步驟。詳見圖三。

銀行專家分享:生產關鍵系統儲存建設落地實踐
圖三:儲存資料遷移步驟

在實踐中,儲存資料遷移的物件、層級、場景和工具較多,具體參見表一。表二中以華為儲存為例,列舉了儲存常用資料遷移工具。

遷移物件
邏輯層級
技術場景
虛擬化平臺
伺服器虛擬層
VMware、FusionSphere、Hyper-V、PowerVM
檔案系統
檔案系統層
CIFS、NFS
邏輯卷
邏輯卷管理層
AIX LVM、HPUX LVM、Linux LVM、Windows LDM
Solaris SVM、Oracle ASM
SAN/NAS儲存
儲存網路層
華為、EMC、IBM、HP、NETAPP、HDS、Fujitsu

表一:儲存資料遷移場景

遷移層級分類
建議遷移方案
華為儲存解決方案
基於主機的遷移
資料庫
Oracle RMAN/DG第三方工具、DSG
虛擬機器
基於虛擬機器軟體的遷移功能(VMware/Hyper-V/Xenserver)
基於檔案系統的遷移
NAS檔案系統遷移
Robocopy/Rsync
MigrationDirector for NAS
基於卷管理軟體的遷移
邏輯卷資料映象
Host LVM、Veritas VxVM
基於同構儲存的遷移
遷移工具
MigrationDirector同構遷移工具
基於網路功能的遷移
基於儲存網路
Smartvirtualization+SmartMigration
基於SAN遷移工具
MigrationDirector異構遷移工具
基於儲存特性的遷移
基於儲存資料複製
HyperMetro/HyperReplication

表二:儲存常用資料遷移工具(以華為儲存為例)

1.4 回退方案

回退方案作為投產實施方案中的關鍵環節,必須確保投產出現風險時,完善的回退應急預案,保障回退期間業務不受影響。需提前準備並演練不同投產場景的主要回退步驟,將回退所需時間加入到投產計劃視窗之中。下表以華為儲存為例,列出了不同遷移場景的主要回退步驟。

回退場景

回退主要步驟

儲存遷移回退

1、在華為儲存上刪除SmartMigration任務。

2、對映源儲存的Lun給主機,主機上掃盤,切換IO路徑到源儲存磁碟路徑。

3、刪除華為儲存和主機間的對映。

4、在華為儲存上刪除eDevLUN。

5、主機上刪除華為儲存對應的磁碟路徑。

6、刪除源儲存到華為儲存的對映。

7、主機上掃盤,並檢查路徑是否正常。

卷遷移回退

1、對映源儲存Lun到主機。

2、主機掃盤,並新增源儲存PV到VG。

3、建立mirrorvg,同步資料從華為儲存到源儲存。

4、同步完成後,刪除mirror,並從VG中刪除華為儲存的PV。

5、系統中刪除華為儲存PV,然後系統掃盤。

6、檢查業務,確保業務執行正常

虛擬化平臺遷移回退

1、虛擬化平臺會自動執行回退.

2、檢查VM、系統和裝置的執行狀態,確保業務執行正常

表三:儲存遷移回退場景及主要步驟

1.5 投產跟蹤

主要對整體儲存架構及應用系統的功能及效能進行跟蹤,驗證投產工作的實際成效。針對發現的故障及時進行分析,並評估採用基於投產架構環境進行解決、整體回退或部分回退等方案保障生產系統安全穩定運營。
2. 關鍵系統儲存運維管理的關鍵點

2.1 常態化演練機制

常態化演練是檢驗災備體系可用性、準確性和時效性的關鍵手段。把應急演練納入常態化軌道,開展經常性的、針對性的應急演練工作,才能充分保證災備機制的有效性,檢驗災備流程的可操作性,不斷完善災備體系建設,持續提升災備演練的實戰能力。一般按照監管要求、業務特點和管理需要,制定常態化(年度或一個週期)演練計劃。儲存架構作為企業整體容災體系的重要基礎,一般依託應急演練計劃開展常態化演練,如表四。

演練場景
演練範圍
演練時間
演練內容
參與部門
單中心
切換
核心類
監管類
每年
4月-5月
系統演練:A生產中心內部主備機切換、儲存切換、SAN光交切換、SLB負載切換及DNS切換等。
資料中心
運營服務部
電子銀行中心
重要類
三年滾動全覆蓋
省中心生產網市州生產網
同城波分鏈路
每年
7月-8月
網路線路及裝置演練:省中心到地市生產網主備線路切換,地市到網點生產網主備線路切換,同城資料中心裸光纖切換。
資料中心
市州行科技部門
A機房電力
同城B機房電力
同城B機房暖通
每年
4月-5月
基礎設施演練:機房電力系統進行A、B路及柴油機供電切換,暖通系統進行外機、內機、儲冷罐切換。
資料中心
辦公室
工程部
同城中心
切換
核心類
每年
7月-8月
A生產中心按業務系統分批切換至光谷同城中心。
資料中心
運營服務部
電子銀行中心
重要類
三年滾動全覆蓋
異地中心
切換
核心類
每年
9月
A生產中心核心和櫃面業務整體切換至異地災備中心。
資料中心
運營服務部

表四:常態化應急演練計劃(示例)

2.2 日常運維機制

常態運維機制一般包括常態巡檢機制(告警檢查、硬軟體狀態等)和效能分析機制(歷史效能資料分析、容量預測、瓶頸預測及最佳化等)。日常運維機制策略如表五。

機制名稱
子項
週期
特點
輸入
輸出
產物數量
常態巡檢機制
健康評估
半月度
①結合SmartKit定時任務,利用eService雲運維中心分析,可以線上靜態檢視核心儲存健康狀態,同時自動產出評估報告Word;
②由平臺產出比人工編寫更為全面的評估報告,包括告警檢查、增值特性、硬軟體狀態等。同時也能將資訊同步至研發。
巡檢包
健康評估報告
1月2份
1年24份
洞察分析
月度
能夠使客戶更能感知到雲運維繫統的優勢,產出的PPT不僅涉及健康狀態,對儲存的容量、版本以及特性也會進行評估,挖掘運營機會點。
同時也能將資訊同步至研發。
巡檢包
資訊收集包
洞察分析報告
1月1份
1年12份
效能分析機制
月度
集中體現儲存工程師的服務價值,一是報告模板由工程師設計,二是工程師利用eService初步解析出的效能資料搭建簡易分析資料庫,三是利用工程師的專業判斷,產出效能分析報告。
歷史效能資料包
核心儲存效能分析報告
1月1份
1年12份

表五:關鍵儲存日常運維機制

2.3 智慧運維工具

一般來說,儲存廠商可以提供儲存產品的監控及運維工具,也可使用第三方工具。智慧運維工具的使用可以大幅提高運維管理的準確性和效率。如華為DME所提供的儲存智慧預測分析(硬碟失效預測、容量趨勢預測、效能潮汐分析、效能異常檢測、效能瓶頸分析、裝置健康評估)、報表展現、儲存異構管理等功能。以及SmartKit、eService和SystemReporter等運維工具。
華為SmartKit為儲存、伺服器、雲端計算三大領域的產品提供了統一的服務工具平臺。

銀行專家分享:生產關鍵系統儲存建設落地實踐

運維團隊運用SmartKit“定時任務”功能實現核心儲存自動化巡檢機制。

銀行專家分享:生產關鍵系統儲存建設落地實踐

eService是華為IT產品的雲端智慧運維平臺,覆蓋儲存、伺服器、雲端計算三大領域產品。提供儲存智慧預測分析(硬碟失效預測、容量趨勢預測、效能潮汐分析、效能異常檢測、效能瓶頸分析、裝置健康評估),eService主動式問題處理。Call Home服務(需聯網),雲上管理(需聯網)。
限於我行資料中心外網隔離要求,日常由維護人員定期將儲存執行資料離線上傳至雲端。

銀行專家分享:生產關鍵系統儲存建設落地實踐

SystemReporter是儲存系統的效能監控軟體,可以幫助使用者更好地瞭解固態儲存系統的效能狀況與趨勢。提供實時監控、歷史監控、效能告警、報表定製和容量預測。

銀行專家分享:生產關鍵系統儲存建設落地實踐

2.4 健全運維生態

關鍵系統儲存作為銀行機構的關鍵裝置,在提升行內技術人員能力的同時,還需建立“原廠+三方”、“一線+後臺”、“交付+研發”的立體式、全天候的支撐服務體系。


五、結語

本文基於銀行業關鍵系統儲存需求場景,結合行業經驗,對銀行業關鍵系統儲存架構設計原則和關鍵點、投產實施和運維管理等重點內容進行了研究和總結。介紹銀行業關鍵系統類別和儲存使用場景,分析了關鍵系統儲存架構設計的儲存型別、容量、組網及高可用容災等關鍵點,總結了在投產實施及運維管理中需關注的現網調研、實施視窗、資料遷移、回退方案、投產跟蹤和常態化演練機制、日常運維機制、智慧運維工具和健全運維生態等重點方面,希望能讓讀者對銀行業關鍵系統儲存實施落地的行業經驗有所瞭解和參考。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024922/viewspace-2927678/,如需轉載,請註明出處,否則將追究法律責任。

相關文章