企業如何預防「意外掉電」帶來的資料安全威脅?

memblaze_2011發表於2017-09-13

先來回顧一起事件,真的發生在我們身邊。

2016年4月22日,某公司北京亦莊資料中心UPS升級改造過程中,因供電中斷,導致機房全部裝置斷電,系統當機,73家村鎮銀行的核心、支付、網銀、手機銀行等業務全部中斷,涉及全國12個省份,且恢復時間長達7個32分鐘,同時造成部分伺服器、儲存裝置損壞,以及部分銀行金融機構的開發測試系統、災備系統、生產業務等系統相繼中斷。

 

我們先不說此處事件導致的硬體裝置損失,單是銀行核心業務系統中斷帶來的經濟損失就已無法預估,而且如此大面積故障,如果沒有完善的應急災備方案,必定會造成大量資料不完整或丟失。

 

斷電,作為掉電的一種,突發事件同樣會造成不良結果。拿企業SSD儲存舉例,當系統正在進行分割槽表或關鍵區域寫入操作時,突然掉電,90%會造成資料寫入不完整,出現資料混亂、丟失,嚴重的SSD將無法讀盤,就是我們常說的“掛掉”了。

 

如果是安全(正常)關機,系統會提前發出通知裝置電源要中斷,讓SSD 有足夠的時間處理還沒有落盤的資料,SSD 此時會將快取的或者正在寫入的使用者資料完整的刷寫進NAND【如圖1所示】,同時不再接收新的IO請求。這是因為SSD固有結構的限制,藉助高速隨機儲存器(RAM)快取資料達到效能提升的目的,而RAM 有易失性,必須週期性對資料進行重新整理,並且沒有供電時,快取在RAM上的使用者資料會丟失。


圖1:使用者寫資料流程圖

而隨著“掉電保護”方面的技術增強,當下企業級SSD產品在這方面表現非常不錯,掉盤概率微乎其微,但企業使用者仍需做到防患於未然,以防突發性掉電事件的發生。作為中國獨具自主研發和創新能力的領先企業級SSD產品供應商,Memblaze新一代PBlaze5系列PCIe NVMe SSD儲存產品在意外掉電保護方面做了進一步技術增強。


或許有人會問,SSD因意外掉電可能會丟失哪些資料?

  1. 快取DRAM中的大量使用者資料+後設資料(使用者資料通過控制器的DMA引擎會增加ECC校驗資訊)
  2. 在DRAM中執行並時時更新的後設資料(如FTL表,端到端DIX模式的保護資訊等)
  3. 從DRAM向NAND介質正在寫入的使用者資料和後設資料

『意外掉電增強技術

為了最小化異常電力中斷造成的資料丟失,MemblazePBlaze5系列SSD設計了包含高能量密度電容的掉電檢測電路。如圖2所示,e-Fuse模組會持續監控SSD的供電電壓,一旦業務供電降低到設定的閾值,則預示意外掉電事件的發生。e-Fuse就會切斷供電電路,同時SW2關閉,SW1開關開啟,電容所在電路形成通路並開始放電。電容電量的選擇是基於快取資料量的大小,同時要考慮這些資料量向NAND刷寫的最長時間,所選的電容能夠保證最壞情況下刷寫資料的電量(Q)要求。所以充足的電力保護視窗,給予資料從快取刷寫到NAND充足的時間。當電源接通時,電容會快速充電。


圖2:包含電容的掉電保護電路

同時,在產品出廠前,會通過對硬體下發指令,電路板上的MCU模組會模擬異常掉電機制對PBlaze5電容的生命狀況進行監測,來驗證電容的有效性,從而保證電容的可靠性。

 

“取消擦除”技術

除了上述增強保護外,PBlaze5還採用了“取消擦除”新技術,用來進一步保證異常電力中斷時,資料的完整性。為什麼使用者需要這項技術:

原因一,“擦除”是非常耗時的操作,如遇到電力異常中斷,在電容放電的視窗期,從DRAM向NAND介質刷寫中摻雜有擦除指令,在極端情況下,整個刷寫週期有可能超過電容的有效放電時間,其結果是導致部分資料丟失。因此,將“擦除”指令取消等待上電後重新執行,不需要電容電量的增加,就可以給關鍵的“程式設計”指令充足的執行時間保證。

 

原因二,採用“取消擦除”技術的原因是由於NAND 結構的差異,PBlaze5採用新一代3D eTLC,而TLC 相比MLC 需要更長的程式設計週期。因為MLC 是一個cell 儲存2bits 資訊,分別為Lower Page Data 和Upper Page Data。而TLC 是一個cell 儲存3bits 資訊,除了和MLC相同的兩個資訊位,還包含Extra Page Data,正如圖3儲存狀態顯示,因此TCL 程式設計時間要大於MLC 程式設計時間( TTLC_prog = TLP_prog + TUP +XP_prog > TMLC_prog = TLP_prog + TUP_prog)。


圖3:TLC&MLC儲存狀態顯示

原因三,考慮到在SSD 使用過程中,由於大量的充放電過程,電容會慢慢老化同時伴隨著電容電量降低,而“取消擦除”技術還可以增強在產品生命末期,遇到異常掉電時的資料完整性。

 

從資料安全形度來講,Memblaze 新一代PBlaze5 SSD通過高能量密度電容的掉電電路檢測和“取消擦除”技術做到了意外掉電事故發生時的預防,確保了資料的完整性和安全性。

相關文章