XSKY星辰天合專利小檔案歸併技術提升儲存效率和效能

伺服器頻道發表於2022-07-15

海量小檔案挑戰

面對海量資料場景,物件儲存以其易用性與幾乎無限的扁平擴充套件性獲得了廣泛地應用,其中,小檔案儲存的需求越發凸顯。受限於儲存後端空間的分配粒度,海量小檔案直接儲存會導致巨大的空間浪費。同時,由於 HDD IOPS 效能瓶頸,小檔案寫入 HDD 時效能比較低。

業界比較常用的優化方式是對小檔案進行非同步歸併處理,即先把小檔案寫入到快取記憶體池(SSD)中,記錄日誌,後臺歸併模組掃描日誌,聚集一批小檔案之後再讀取出來組成一個大檔案寫入後端資料池(HDD)。使用歸併的方法,海量小檔案業務空間浪費問題和儲存效能問題都能得到較為明顯的改善。然而,這種後臺歸併的方式存在如下缺點:

l 每個上傳的小檔案都會經過一次讀、兩次寫,相當於每次IO都額外產生了一次讀。

l 對於快取池(SSD),進行後臺歸併時會產生大量的讀IO,影響前端寫入效能。

l 使用掃描日誌的方式非同步歸併,如果歸併不及時,會導致大量資料積壓在快取池(SSD)中,甚至佔滿快取空間的情況。

l 由於後臺歸併獨立於前端IO進行,對前端IO不能有很好的反饋調節作用。

XSKY星辰天合,作為國內物件儲存的領頭羊 ,在小檔案歸併領域有多個相關專利,小檔案歸併的模式也從非同步歸併升級到線上歸併,儲存的效率和效能得到進一步的提升。

XSKY星辰天合小檔案歸併機制

早在2019年,星辰天合便憑藉著對海量小檔案問題的深入研究,自研小檔案歸併機制,獲得了國家智慧財產權局發明專利授權。通過使用少量高效能儲存介質組成快取記憶體池,將小檔案先寫入快取池,充分發揮快取池的高效能優勢,再將小檔案歸併成大檔案順序寫入 HDD 的 EC 池,發揮 HDD 的順序寫特性,降低由於磁碟最小分配單元以及 EC 糾刪碼寫放大帶來的空間浪費,提升儲存空間利用率。

但是,這種非同步歸併的方法還是有一定的侷限性,因此在下一代物件儲存產品中,針對小檔案歸併存在的挑戰,XSKY星辰天合再次剖析問題,發明解決了小檔案歸併方法需要寫入快取池,再從快取池中讀取歸併效率低的技術問題,實現了線上歸併。該技術當前已經申請了國家智慧財產權局發明專利,正處於實質審查階段。

星辰天合下一代物件儲存產品XEOS V6中,海量小檔案歸併管理方案有了全新的升級,從非同步歸併升級到線上歸併,將帶給使用者更良好的體驗。下面講述下一代物件中的小檔案線上歸併使用到的幾個關鍵技術。

多級快取

從成本角度考慮,高效能 SSD 盤通常配置較少,難以應對突發小檔案流量壓力;對於 1MB 以上的小檔案,直接寫入 HDD 介質會更加高效。不同於以往採用單一快取池承載小檔案,XEOS 設計了多級快取池機制,儲存不同大小的資料。採用 SSD 構建快取記憶體池, HDD 構建普通EC資料池,複用已有 HDD 硬體資源部署中速快取副本池。檔案上傳後,系統自動識別檔案大小,1MB以內的小檔案寫入快取記憶體池,1~4MB檔案寫入中速快取池,大於4MB的檔案透傳至普通資料池。

引入中速快取池可以在保證檔案訪問效能的基礎上,減少1~4MB範圍大小檔案對於快取記憶體空間的佔用,同時提高快取池的可靠性。在快取記憶體池寫滿後,系統自動啟用中速快取池繼續寫入小檔案資料,保證了業務的連續性,當快取記憶體池的資料被歸併而釋放快取空間後,恢復使用快取記憶體池寫入小檔案資料。

高效歸併

小檔案歸併儲存可以降低小檔案寫入的隨機性,提高儲存效率,減少寫放大帶來的空間浪費。XEOS V6同時支援線上歸併、離線歸併,歸併策略自動切換。

預設情況下執行線上歸併策略。閘道器內預留一定的記憶體,在接收小檔案資料並寫入快取池的同時,以追加的方式在記憶體中快取,快取達到某個閾值後寫入普通資料池,更新後設資料,刪除快取池中的資料。

採用線上歸併,不再需要從快取池中讀取資料,大大減小了快取池的壓力,同時歸併效能不受叢集規模影響,並且由於線上歸併直接在前端IO上下文進行處理,因此可以對前端IO起到很好的反饋作用,防止前端業務壓力太大導致業務不可寫。

當小檔案寫入流量大,或儲存平臺短時間內故障,線上歸併可能會將預留的記憶體全部消耗完,無法繼續執行,此刻,閘道器自動轉入離線歸併策略,及時釋放快取池的空間。

空洞回收

當頻繁進行小檔案刪除時,歸併物件將產生大量的空洞,佔用一定的儲存資源。為了能夠釋放該部分空間,XEOS 支援二次歸併機制。二次歸併將空洞率超過回收閾值的歸併物件中剩餘的有效物件進行重新歸併 ,歸併成新的歸併物件後刪除原有歸併物件,使得磁碟空間得以釋放。

總結

通過多年的努力,XSKY星辰天合在小檔案處理機制上長期處於領先地位,並且不斷地完成自我超越。下一代物件儲存海量小檔案管理的實際表現如何,讓我們拭目以待。

XSKY星辰天合的下一代物件儲存產品XEOS即將在7月20日舉辦線上釋出會,


來自 “ 廠商稿 ”, 原文作者:廠商稿;原文連結:廠商稿,如有侵權,請聯絡管理員刪除。

相關文章