儲存服務質量優化

memblaze_2011發表於2018-11-20

儲存服務質量不是一個單點問題。從系統的角度考慮服務質量的智慧儲存將成為未來的重要的方面。Memblaze CTO在日知錄主辦的2018日知錄資料智慧峰會上的分享開始就闡述了保障資料中心儲存系統服務質量的觀點,並在演講中介紹了Memblaze保障儲存系統服務質量的核心技術及研發理念進行了解讀。
Memblaze CTO路向峰

Memblaze CTO路向峰
路向峰分析了Flash技術給資料中心基礎架構帶來的影響,他指出:“NAND Flash給儲存系統帶來新機會的同時,也對於傳統儲存架構帶來挑戰。需要調整軟體架構來釋放Flash的能力。需要從單個儲存部件、儲存網路依賴關係和針對使用者業務壓力的優化三個方面考慮,提升系統的服務質量。” 在SSD內部,由於Garbage Collection和Flash Erase等後臺任務的存在,在使用者隨機寫工況下,系統的服務質量容易變差。為了定量研究這一情況,可以利用GMM概率模型對於IO寫入的服務時間建模,並採用排隊理論進行分析和模擬。根據該理論,採用**寫路徑增加緩衝資源**並**根據負載情況調整緩衝區延遲策略**可以改善和優化寫工況下的服務質量。Memblaze針對幾種不同的方案做了大量的模擬測試,並證實了上述幾種方案對寫延遲的降低效果。

NVMe SSD延遲測試

原始方案與改進方案在平均延時、5x9和8x9延遲的比較
由於讀延遲直接影響著終端使用者的體驗,所以從SSD到系統對於讀的優化研究也至關重要。通常Flash的頻寬遠超儲存介面頻寬,不構成讀的效能瓶頸,但是**在讀寫混合的工況下,由於讀命令受到寫命令或擦除命令的干擾,服務質量容易變差,這裡的寫和擦除命令可能來自於業務壓力,也有可能是SSD內部的Garbage collection和Flash Erase等後臺任務。目前針對SSD讀延遲的優化技術主要有Flash讀命令優先;協商讀資料恢復等級及多副本優化以及儲存系統優化讀寫分時複用和空間隔離。** 在具體實現上,Memblaze設計了更為複雜的演算法,規避介質的缺陷等因素,並能夠針對具體的業務壓力,使SSD在響應服務平均時間和中斷服務質量間找到平衡。 從儲存系統的層面同樣有多重技術可以用於改善Flash的讀延遲,比如在採用了多副本技術或者是糾刪碼的儲存系統中,就可以通過儲存系統與裝置進行協商,從多個資料獲取方式中選擇最佳延遲的方案進行讀取資料、出錯處理等操作,提升系統整體的服務質量。 **在新的NVMe協議中,將提供了Predictable Latency Mode和NVM Sets的新介面能力,分別提供了時間和空間的隔離能力,分時複用和空間隔離要求頂層考慮使用Flash的行為加以限制,避免同時對同一個位置同時讀寫。**

儲存系統優化讀寫分時複用和空間隔離

儲存系統優化讀寫分時複用和空間隔離
在演講的最後,路向峰談到了基於AI的面向服務質量的智慧系統,他認為“為了能夠適應機器學習框架,需要把現有的儲存系統逐步調整成為任務處理層和策略優化層。在任務處理層實現對於儲存具體業務的處理,而在策略優化層,需要分析業務處理的效能和服務質量,並將合適的策略反饋給任務處理層。這些資料可供機器學習演算法訓練模型,在此基礎上逐漸迭代和優化策略。” 提升使用者體驗是Memblaze工作的終極目標。針對不同的應用場景和工作負載, PBlaze系列NVMe SSD力求為使用者提供更加平穩的高效能和更高的可靠性。多年實踐中,Memblaze不僅掌握了大量核心技術提升SSD效能穩定性、壽命和可靠性,並且從裝置到系統多個層面研究和驗證不同方案對於提升使用者體驗的效果。這些工作和成果不僅推動了快閃記憶體和NVMe技術的發展,更是資料中心生態演進和完善不可或缺的組成部分。

相關文章