浪潮線上壓縮,為資料儲存降本增效

全球TMT發表於2022-04-07

北京 2022年4月7日 /美通社/ -- 隨著新技術、新應用不斷出現,數字化轉型也在不斷加速,行業智慧應用爆發式增長,改變了人們的工作、生活、學習方式,使得社會進入了數字經濟時代。據IDC預測,到2025 年,每天有超過 60 億人與資料發生互動,相當於全球人口的 75%;每個聯網的人每隔18 秒就會有至少 1 次資料互動,全球資料也將增至 175ZB。而這些資料被記錄在不同儲存系統與介質中,企業不斷購置大量的儲存裝置來應對快速增長的資料儲存需求,這也增加了系統支出和資源能耗。浪潮儲存基於技術創新提出了智慧線上壓縮技術(InCompression),透過結合硬體及演算法進行資料量縮減,以提升儲存空間利用率,達到降本增效的目的。

浪潮儲存
浪潮儲存

快閃記憶體化趨勢背後,面臨的資料新挑戰

在資料管理的過程中,最終都需要將資料存放到某一類最底層物理儲存介質中。目前,底層物理儲存介質主要有光、磁、電三種,對應的儲存產品型別可也被分為三大類:光學儲存,如藍光儲存;磁儲存,如HDD機械硬碟;半導體儲存,採用電能儲存,如SSD固態硬碟。除了目前主要使用光、磁、電三種介質之外,業界還在進行DNA儲存等下一代介質研發。當前在企業級儲存市場應用最廣泛的是HDD機械盤跟SSD固態盤,其中SSD節能優勢明顯,相對於HDD,在相同容量下,SSD的電力能耗降低70%,可有效推進資料中心低碳運轉,其效能在市場中也具有較強的競爭力。

另外,“矽進磁退”是儲存介質發展的趨勢,全快閃記憶體陣列的普及速度也在逐年提高。SSD固態硬碟的效能雖高,但是其中的flash顆粒存在成本和磨損壽命的限制。因此在全快閃記憶體系統進行設計時,需要充分考慮減少flash的磨損。業界中也透過壓縮技術減少寫入的資料量,進而有效減少對flash的磨損,提高系統的利用率,延長SSD的使用壽命,從而降低資料儲存的成本。

儲存系統中的線上壓縮技術

儲存系統中的無損資料壓縮演算法,正在由效率較低的定長(Fixed Bit Length Packing)壓縮轉變為不定長壓縮。其中,由Abraham Lempel 和 Jacob Ziv獨創性的使用字典的LZ77/78演算法及其變種應用最為廣泛。這類使用字典來壓縮資料LZ演算法使用一種基於滑動視窗快取的技術,該快取用於儲存最近剛剛處理的文字;當出現一個重複時,重複的序列可以用一個短的編碼來代替;壓縮程式掃描這樣的重複,同時生成編碼來代替重複序列,隨著時間的過去,編碼可以重用來捕獲新的序列。當然系統必須要設計成解壓程式能夠在編碼和原始資料序列推匯出當前的對映。

LZ演算法示意圖
LZ演算法示意圖

LZ演算法使用了有限的視窗在以前的文字中查詢匹配,對於相對於視窗大小來說非常長的文字塊,很多可能的匹配就會被丟掉。視窗大小可以增加,但這會帶來兩個損失:一是演算法的處理時間會增加;二是指標欄位必須更長,以允許更長的跳轉。兩者都很消耗計算資源(CPU和快取)。

傳統線上實時壓縮技術一般採用軟體壓縮來實現,會帶來一定的CPU負載,如果壓縮演算法做的不夠最佳化,就會導致壓縮功能開啟後佔用較多CPU效能(雙倍壓縮,佔用15%左右CPU資源),一般會影響系統1/3-2/3的效能,影響業務的可用效能。因此,某些儲存系統中並不建議企業在業務繁忙時開啟壓縮功能,一般在業務空閒階段使用壓縮。

資料壓縮的另外一個痛點在於,資料塊經過壓縮後,因為有不同的冗餘度,資料塊長度變得不一,容易造成磁碟碎片。這種基於位置的壓縮給系統的資料佈局帶來很大影響,嚴重影響業務的IO響應能力,加劇效能衰減。

基於定長輸出的智慧線上壓縮,保障業務的效能不受影響

浪潮智慧線上壓縮基於硬體壓縮技術,降低了對控制器計算資源的佔用,特別是CPU和快取,使得壓縮功能的開啟,只佔用了低於3%的CPU效能影響(部分IO互動);與此同時,透過特定最佳化的壓縮演算法,將線上壓縮的不定長資料轉變為定長資料,壓縮資料8byte對齊。定長輸出壓縮模式是一種前壓縮方式,資料會先經過快取壓縮(專用快取和壓縮晶片),最終落盤的是壓縮後的資料;且演算法依據非定長輸入會生成定長輸出,更容易滿條帶刷寫,提高效能同時提高磁碟空間利用率。浪潮儲存基於時序的最佳化策略可以識別隨機熱點資料,依賴區域性性原理進行資料儲存,進一步提高隨機場景的壓縮效能。在資料佈局上,不再產生資料碎片,從總體測試表現看,開啟壓縮功能後,反而提升系統的隨機讀寫效能。資料庫類應用壓縮比例2:1-5:1,日誌型應用最大壓縮比例可達10:1,節省了大量的儲存空間。

浪潮儲存基於“雲存智用 運籌新資料”的理念,不斷技術創新,將智慧壓縮技術適配到儲存平臺,打造敏捷高效的儲存產品,在保障效能無損的情況下,提升資料儲存的效率,提高了儲存空間利用率,降低資料儲存成本,讓使用者能輕鬆應對數字經濟時代的海量資料的挑戰。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2886100/,如需轉載,請註明出處,否則將追究法律責任。

相關文章