檔案系統不適合作為分散式儲存後端:來自Ceph演變10年的經驗教訓 - blogspot
Ceph是於2004年在UCSC開始的研究專案。Ceph核心是一個稱為RADOS的分散式物件儲存。儲存後端是在已經成熟的檔案系統上實現的。檔案系統有助於塊分配,後設資料管理和崩潰恢復。Ceph團隊將儲存後端構建在現有檔案系統上,因為他們不想從頭開始編寫儲存層。完整的檔案系統需要大量時間(10年)來開發,穩定,最佳化和成熟。
但是,在儲存路徑中具有檔案系統會增加很多開銷。它為實現高效事務帶來了問題。它引入了後設資料操作的瓶頸。例如,包含數百萬個小檔案的檔案系統目錄將成為後設資料瓶頸。分頁等也會產生問題。為了避免這些問題,Ceph團隊嘗試透過在使用者空間中實現WAL來掛鉤FS內部,並使用NewStore資料庫執行事務。但是很難與檔案系統搏鬥。自2010年以來,他們解決問題的方式已經有7年了。
最後,Ceph團隊放棄了檔案系統方法,並開始編寫自己的不使用檔案系統的儲存系統BlueStore。他們僅用了兩年就可以完成並提高儲存水平!這是因為小型的自定義後端比POSIX檔案系統更快地成熟。
與早期版本相比,新的儲存層BlueStore實現了非常高的效能。透過避免資料日記,BlueStore能夠實現比FileStore / XFS更高的吞吐量。 使用檔案系統時,髒後設資料的回寫會干擾WAL的寫操作,並導致高的尾部延遲。相反,透過控制寫入並使用直寫策略,BlueStore確保沒有後臺寫入會干擾前臺寫入。這樣,BlueStore避免了寫入的尾部延遲。
最後,完全控制I / O堆疊可加速新硬體的採用。例如,雖然檔案系統很難適應帶狀的磁記錄儲存,但作者仍能夠為它們新增後設資料儲存支援到BlueStore,而資料儲存正在開發中。總而言之,從分散式儲存中汲取的教訓是,實現自定義後端比嘗試為此目的而嘗試增加檔案系統更容易,更好。 這是BlueStore,儲存後端的體系結構圖。所有後設資料都在RocksDB中維護,該資料庫位於BlueFS(最小的使用者空間檔案系統)之上。
相關文章
- CEPH分散式儲存搭建(物件、塊、檔案三大儲存)分散式物件
- Kubernetes中分散式儲存Rook-Ceph部署快速演練分散式
- 必須掌握的分散式檔案儲存系統—HDFS分散式
- Ceph儲存後端ObjectStore架構和技術演進後端Object架構
- 分散式儲存ceph 物件儲存配置zone同步分散式物件
- 分散式檔案儲存系統 fastdfs 的 Composer 包釋出!分散式AST
- GFS分散式檔案系統、結合實驗分析各種儲存卷的特點。深入刨析分散式儲存的方式。分散式
- 滴滴Ceph分散式儲存系統優化之鎖優化分散式優化
- 360自研分散式海量小檔案儲存系統的設計與實現分散式
- Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFSHadoop分散式
- Ceph分散式儲存技術解讀分散式
- python如何分散式儲存檔案?Python分散式
- 來自10位 IT 大牛的23條經驗教訓
- 滴滴Ceph分散式儲存系統最佳化之鎖最佳化分散式
- 分散式檔案系統HDFS,大資料儲存實戰(一)分散式大資料
- kubernetes配置後端儲存 rook-ceph後端
- docker筆記39-ceph分散式儲存的搭建Docker筆記分散式
- 不要Ceph,青雲自己做了一套QingStor檔案儲存系統
- 分散式儲存Ceph之PG狀態詳解分散式
- 分散式檔案系統和物件儲存魔力象限,右上角都有誰?分散式物件
- 大量小檔案不適合儲存於HDFS的原因
- 分散式檔案系統分散式
- Heap使用Postgres SQL後的經驗教訓SQL
- juicefs:一個基於Redis和雲物件儲存的分散式POSIX檔案系統UIRedis物件分散式
- Bayou複製分散式儲存系統分散式
- 分散式檔案儲存FastDFS(七)FastDFS配置檔案詳解分散式AST
- 面向海量資料,一篇文章認識Ceph分散式儲存系統分散式
- CEPH檔案系統後設資料的SSD加速
- 分散式檔案儲存庫MinIO可還行?分散式
- NVMe儲存效能瓶頸的主要來源:檔案系統
- HDFS分散式檔案系統分散式
- 分散式檔案系統-HDFS分散式
- 分散式儲存系統可靠性:系統量化估算分散式
- Hadoop分散式檔案系統(HDFS)會不會被淘汰?Hadoop分散式
- Centos7下使用Ceph-deploy快速部署Ceph分散式儲存-操作記錄CentOS分散式
- win10 cad自動儲存的檔案在哪裡 win10系統cad自動儲存的檔案怎麼開啟Win10
- 使用 PostgreSQL 16.1 + Citus 12.1 作為多個微服務的分散式 Sharding 儲存後端SQL微服務分散式後端
- 將座標系統儲存為一個檔案.prj