東京證交所當機調查結果出爐,資料安全警鐘需長鳴

dobigdata發表於2020-12-08

資料安全決定著一家企業的生死與未來。

這絕對不是危言聳聽。近幾年來,現實中慘痛教訓不斷上演:天津某醫院資料中心因持續大雨被淹,由於未做災備,導致醫院無法開展業務;某雲服務商因為底層磁碟靜默錯誤以及資料遷移操作不規範,導致某使用者平臺級資料全部丟失,業務從此難以為繼;某網際網路技術服務商資料被惡意刪除,恢復耗時七天七夜,賠償客戶損失1.5億元……

最近一個鮮活的例子是,東京證券交易所在十一期間因為儲存故障導致業務大癱瘓,暫停交易一天,損失和影響不可估量。哪怕貴為全球第三大證券交易所的東京證券交易所,其IT建設經驗如此豐富、IT基礎設施如此強大的情況下,當故障發生時,依然無法從容應對。此刻,不談災備,何來以後的資料安全。

正所謂“後人哀之而不鑑之,亦使後人復哀後人也!”這一切不禁讓人思考:過去的災備建設體系是否真的適合如今快速變化的數字化時代?未來容災的趨勢又會朝著哪些方向發展?

東京證券交易所事件引發的思考

今年十月一號,東京證券交易所因為儲存裝置故障導致暫停交易一天。當時筆者就猜測,此次事故可能並不是簡單的裝置故障而引起的。

果不其然,東京證券交易所當機事故處理結果近日出爐。日本金融服務管理局(FSA)調查顯示,故障的根本原因是“故障裝置出現了缺陷”;但由於“為故障裝置制定的故障自動切換機制不夠到位,加上TSE沒有為交易恢復制定合適的規定”,最終導致了十月一號的混亂局面。

東京證交所當機調查結果出爐,資料安全警鐘需長鳴

東京證券交易所經歷大當機

調查報告指出,當故障發生時,備用裝置並沒有自動接管,之後只能透過人工方式,手動切換到備用裝置。該報告甚至還發現,該交易所並沒有制定恢復交易的程式,以防發生此類故障,而且缺乏明確的規定。

任何事件都不能孤立地去看待,如果脫離其所處的時代背景去分析則缺乏真正的借鑑意義。正如東京證券交易所當機事件中,我們不能簡單將此次故障歸咎於富士通儲存裝置的問題,因為硬體故障出現無可厚非,任何硬體都達不到100%的絕對安全可靠;我們亦不能簡單怪罪於恢復機制的缺陷,因為過去制定的規則與規範,隨著歲月的推移,無法適應新時代的變化。

我們需要真正深刻思考的是:在數字化浪潮滾滾而來的時代下,資料爆炸性增長、資料價值加速凸顯、資料使能日趨迫切,保障業務連續性已成頭等大事,災備建設的重要性是否引起大家足夠的重視、災備架構設計是否符合未來業務發展的需求、災備一系列流程規範是否真正具有可執行性?

你是否真的瞭解資料災備需求

“過去會區分核心資料和非核心資料。現在是所有資料都重要,所有資料都不能丟失。”一家三甲醫院資訊中心主任今年接受大資料線上採訪時如是說。

這恰恰反映出資料的重要性今非昔比。資料正在成為最重要的生產要素之一,更是一切應用運轉的基礎。然而,資料保護的難度也不可同日而語。這些年,隨著雲端計算、大資料、人工智慧等技術的不斷應用,直接驅動著新應用不斷湧現,應用型別不僅走向複雜化和多元化,也帶動了資料型別走向多元化,給災備建設帶來了前所未有的挑戰。

以銀行為例,2019年銀行業共處理電子支付業務2233億筆,業務規模是2009年的40倍,小額、高頻支付場景正在迅速成為常態,使得銀行的交易、清算等業務帶來了前所未有的交易頻次、資料規模以及對業務連續性的強需求。

“數字化轉型加速了企業業務走向線上化和數字化,對業務連續性要求變得極高。”某儲存技術專家告訴大資料線上。事實上的確如此,面對如此豐富的應用以及所產生的海量多後設資料,過去傳統一刀切、只聚焦所謂核心資料的容災策略已經不合時宜了。如今,業界普遍認為針對資料屬性、使能需求需要採用“分而治之”的策略,透過有針對性的策略實現資料的有效保護與合理利用。

東京證交所當機調查結果出爐,資料安全警鐘需長鳴

首先,針對生產業務的熱資料需要進行全容災。透過免閘道器雙活、兩地三中心等技術手段,實現生產級資料的全容災,一旦出現故障或者災難,可以很快實現切換,保障業務連續線上執行。

比如,《銀行業資訊系統災難恢復規劃》最新規定,AB類業務災難恢復等級要求在5級以上,業務中斷需要低於15分鐘。考慮到金融機構業務一旦中斷就會對使用者體驗和經濟日常活動造成嚴重影響,像銀行等機構實際部署的容災業務系統RPO和RTO指標要求會比行業規定更加苛刻。

其次,針對備份資料既需要有效保護,又能實現合理利用,即溫資料實現熱備份。備份資料是包含了不同歷史時間點的生產資料副本,一旦出現邏輯錯誤或者人為誤操作,可以透過備份資料來實現資料的可恢復性。

如今,隨著數字化轉型的不斷深入,資料的規模與量級正在呈現指數級的增長,這也要求使用者在相對固定的備份時間視窗中儘快完成資料的備份,對於資料備份的效能和效率要求正在越來越高;與此同時,為避免對生產系統執行的影響,開發測試、資料探勘等應用會盡量使用備份資料,從而增加了備份副本的使用用途和價值。

最後則是冷資料逐漸走向溫歸檔。眾所周知,不僅銀行、保險等這些傳統行業對於資料有著嚴格的監管要求,哪怕是網際網路行業對於生產資料、日誌資料等都需要長期保留,以用於追溯故障和各種問題,以備後續的審計。

以國內一家直播巨頭為例,其每月直播所產生的資料就高達數PB,這些海量資料因為法規要求,需要做長達三個月的保留,並且在歸檔期間還會經常因為法規和審計的要求而被呼叫,對於歸檔資料的長期保持和資料完整性有著極高要求。一位儲存技術專家就直言:“因為審計和歸檔法規,現在幾乎所有行業都對資料歸檔有要求,金融等行業甚至要求資料存放時間達十年以上,需要確保資料不丟失。”

因此,應用的多樣化、資料屬性的差異化以及法規遵從的硬性要求,驅動著資料保護的走向精細化,也讓越來越多使用者重新審視災備,並著手做出改變。

現在是時候重新審視災備

事實上,近年來隨著一系列當機、故障事件的發生,以及使用者自身數字化轉型中遇到的各種挑戰,使用者在災備建設上呈現出一些新的趨勢。

首先,隨著使用者業務加速走向數字化,資料中心規模、裝置數量也隨之快速增加,某種程度也加大了裝置故障發生的機率。因此,使用者在進行災備建設過程中依然會看重單點裝置的可靠性。因為無論是分散式架構產品,還是集中式架構產品,單點裝置的高可靠性的確可以降低故障發生的機率。

東京證交所當機調查結果出爐,資料安全警鐘需長鳴

比如,我們現在看到一些高階儲存產品,可以實現八個控制器壞七個依然能夠執行,將資料中心儲存可靠性提升到一個新高度。另外,集合分散式和集中式架構各自優勢的儲存產品被認為未來資料中心儲存重要的發展方向,有望進一步提升整個資料資料中心儲存層面的可靠性。

其次,完整的災備架構設計和合適的解決方案實施將會成為使用者災備建設的必需。比如兩地三中心,甚至兩地四中心的方案會被更多使用者所接受與採納,而像免閘道器雙活這種方案不僅可以大幅降低故障切換的步驟與難度,還能有效讓RPO和RTO等關鍵指標趨於零,必然會受到更多使用者所採用。

最後,過去災備“中看不中用”的想法將會被徹底拋棄,使用者在理念層面將大幅重視災備的建設,進一步推動災備建設走向落地,除了會繼續完善嚴格的流程規範之外,日常演練等工作也會被使用者所重視,真正讓災備建設做到“中看又中用”。

總體來看,東京證券交易所的當機事件猶如在數字化浪潮中給我們敲響了一次警鐘。對於所有使用者,現在時候重新審視災備,並且著手改變現狀,為數字化轉型保駕護航。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2740527/,如需轉載,請註明出處,否則將追究法律責任。

相關文章