LC3視角:高效能網路技術下的阿里雲盤古分散式儲存技術變革

kobeatchina發表於2018-07-10

LC3視角:高效能網路技術下的阿里雲盤古分散式儲存技術變革

近些年,隨著NVME快閃記憶體等儲存技術的發展,單儲存裝置IO頻寬已達到GB/S,延遲降低至微秒數量級,而下一代記憶體級非易事儲存介質如Intel 3D XPoint將進一步提升儲存介質效能。從整體上看,資料中心已經由傳統的機械硬碟毫秒時代過渡到儲存新介質的微秒時代。在效能大幅提升的同時,節點儲存容量也急劇增加,達到幾十TB量級。節點儲存效能和容量的飛速發展,對分散式儲存系統節點間的網路通訊效能提出了更高的要求,因此,高效能網路技術如RDMA(Remote Direct Memory Access)技術開始應用於資料中心,RDMA技術起源於高效能運算領域(如太湖之光超級計算機),其可通過相對定製的流控機制實現高效的節點間通訊。

儲存和網路新技術的應用導致資料中心基層物理架構的變革,“世異時移,變法宜矣”,《呂氏春秋》的經典詞句說明擁抱變化的重要性。盤古分散式儲存起源於阿里雲飛天系統,已歷時10餘年,作為自主研發的分散式儲存系統,其是阿里雲核心元件之一,支撐阿里雲物件儲存、大資料計算、塊儲存、檔案儲存等多種關鍵儲存業務。隨著發展,它越來越成為整個阿里巴巴的儲存平臺,支援天貓、淘寶、支付寶等更多的業務。新一代盤古儲存系統充分利用NVME和RDMA等新技術,實現了高效能的儲存服務,其端到端三副本寫的延遲低於30微秒,逼近底層硬體的理論物理延遲,而基於盤古儲存系統的ESSD雲盤可以達到100us、1M IOPS的效能。

在今年的阿里618大促中,盤古作為基礎儲存,為天貓、淘寶電商資料庫以及阿里雲塊儲存等阿里巴巴核心業務提供了服務,而在此之前,國內外還從未有公司將RDMA&NVME等新技術應用於線上大規模資料庫和雲端計算塊儲存等核心業務,盤古首次實現了這些技術線上上核心業務的大規模應用。

盤古分散式儲存系統

盤古儲存系統超高效能的獲得離不開對儲存和網路效能的極致挖掘,特別是RDMA技術的研發。盤古選擇RDMA的動機包含效能和語義兩個方面。在效能方面,RDMA相對於傳統TCP通訊,由於RDMA網路卡硬體負責處理通訊協議,其在延遲和CPU利用率上佔有優勢。點到點RDMA延遲接近1us,而同等條件下的TCP要達到20us以上;RDMA可利用一個CPU處理器核可以打滿網路頻寬,而TCP需要至少4個處理器核心,RDMA的CPU利用率明顯高於TCP。另一方面,從語義上來說,RDMA提供了一種節點A的資料可靠傳送至節點B的通訊機制,並實現了遠端記憶體訪問語義。由於可靠傳輸,並且實現了記憶體語義,這使得遠端處理部件(CPU、FPGA、GPU等)可以直接對一段記憶體編址範圍內的資料進行處理。與之對應,由於TCP是位元組流語義,接收方很難斷定處理資料的邊界,從而很難直接對資料進行加工,並且需要藉助處理單元進行解析。隨著大規模高效能裝置的發展如AEP新儲存介質和硬體協處理等專用處理晶片的發展,遠端直接對資料進行處理成為盤古儲存的迫切需求,因此RDMA這方面的優勢更為突出。盤古分散式系統通過全使用者態系統軟體棧,充分利用RDMA特性,全鏈路盤古軟體庫開消低於3us,從而獲得了高效的IO效能。

盤古全使用者態軟體棧

RDMA網路效能突出,在實際中,出於成本等因素的考慮,區別於高效能運算領域的Infiniband RDMA技術,目前資料中心廣泛採用RDMA ROCE技術。ROCE RDMA技術是在可丟包的乙太網上,通過“打補丁”的方式,實現無損不丟包的通訊傳輸。在可丟包的網路實現不丟包,這本身引入了較大的風險,相對於以前的可丟包實現,其更容易引發網路系統性的風險,這也是ROCE RDMA在國內外資料中心應用的難題。簡單類比一下,如果把RDMA比做高速公路,那麼TCP類似於省道。高速公路採取獨立的隔離機制(專用隔離的封閉道路)和專用的通行規則以到達高效通行的目的;省道更多是滿足出發地和目的地之間的可達性,實現不同地點的連通,雖然其也追求高效性,但出於成本等因素的妥協,其通行性並沒有嚴格的保證。由於獨立隔離且高速執行,高速公路對於風雪、霧氣等情況下的風險明顯大於省道,RDMA與之類似,在高效能的同時存在較大的風險。此外,針對ROCE RDMA,不同廠商網路卡和交換機的RDMA技術經驗還處於積累階段,流控策略和引數配置也存在較多的問題,因此從ROCE RDMA的網路承載者網路卡和交換機來說,ROCE RDMA風險也較大。雖然ROCE RDMA存在較大的風險,盤古系統所支援的業務如電商和阿里雲端儲存等,需要提供365*24的穩定執行,盤古面臨這些風險,需要如其名做到穩如磐石,杜絕絲毫風險。在實際實現中,盤古和阿里網路團隊採用軟硬體協同的方法,在保證效能的同時很大程度上降低了ROCE RDMA的風險。

通過對RDMA極致效能的追求和針對可靠性的軟硬體協同設計,盤古實現了基於RDMA的高效且穩定實現,並首次應用於618阿里巴巴大促資料庫和阿里雲塊儲存等核心關鍵業務。此外,針對雲端計算下的RDMA QOS服務質量、網路儲存融合、基於RDMA的近儲存計算等方面,盤古也展開了一系列技術研發,後續盤古將支援更多的阿里巴巴業務,並在雙十一大促中進一步檢驗和推廣,從而為使用者提供高效穩定的儲存服務。


相關文章