分散式儲存最全詳解(圖文全面總結)

帶你聊技術發表於2024-02-21

來源:mikechen的網際網路架構


分散式儲存是分散式系統的重要組成,也是大型架構的必備技能,下面我全面來詳解分散式儲存


分散式儲存

分散式儲存是一種儲存系統的架構,在分散式儲存系統中,資料被分散儲存在多個伺服器或節點上,每個節點都可以獨立執行。

分散式儲存具有以下四個主要特點:

分散式儲存最全詳解(圖文全面總結)

1.可靠性和容錯性

分散式儲存系統透過在多個節點上覆制資料或採用糾錯碼等技術,可以容忍節點故障或網路問題,確保資料的可靠性。

2.可擴充套件性

分散式儲存系統可以輕鬆擴充套件以適應不斷增長的資料量和使用者需求,透過新增新的儲存節點,系統能夠有效地處理更多的資料和請求。

3.效能

分散式儲存系統透過在多個節點上,並行處理資料,提供更好的效能,這包括高吞吐量和低延遲的資料訪問。

4.靈活性

分散式儲存系統能夠儲存各種形式的資料,包括結:構化資料、半結構化資料和非結構化資料。

 

分散式儲存架構技術

常見的分散式儲存實現技術,有HDFS、Ceph、GFS等。

1.HDFS

HDFS,全稱為Hadoop Distributed File System,是Apache Hadoop專案的一部分,是一種分散式檔案系統。

HDFS被設計為支援大規模資料集的高吞吐量讀/寫操作,適用於大資料處理場景。

HDFS可以在叢集中新增更多的節點,以擴充套件儲存容量和處理能力,適應不斷增長的資料需求。

HDFS的架構包括兩個主要元件:NameNode和DataNode。

如下圖所示:

分散式儲存最全詳解(圖文全面總結)

1.NameNode

NameNode是HDFS的主伺服器,負責管理檔案系統的名稱空間和客戶端對檔案的訪問。

它維護檔案和目錄的後設資料資訊,包括檔案的層次結構、檔案大小、建立時間等。

2.DataNode

DataNode是實際儲存資料的節點,它負責儲存和檢索資料塊,並根據NameNode的指示進行資料的讀寫操作。

HDFS的檔案被分成多個塊,每個塊被複制到不同的DataNode上,以提高容錯性和資料可用性。

 

2.Ceph

Ceph是一個開源的分散式儲存系統,旨在提供高效能、高可靠性和可擴充套件性的儲存解決方案。

Ceph的架構,包括以下關鍵元件:

分散式儲存最全詳解(圖文全面總結)

在Ceph中,OSD(Object Storage Daemon)、PG(Placement Group)和Pool是三個重要的概念和元件,它們共同構成Ceph的儲存架構。

OSD是Ceph儲存叢集中的物件儲存守護程式,負責管理和儲存實際的資料物件。

PG是Ceph中的資料分片單元,用於管理和分配資料儲存。

Ceph將資料劃分為若干個PG,每個PG由一個或多個OSD管理,PG的數量和分佈是動態調整的,以適應叢集規模和負載變化。

Pool是Ceph中用於組織和管理PG的邏輯容器,每個Pool包含一組PG。

使用者可以建立多個Pool,每個Pool可以有不同的配置,例如副本數、儲存策略等。

 

3.GFS

GFS是Google設計的分散式檔案系統,專為在大規模叢集上提供高效能和可靠性而設計。

GFS的架構透過主從結構、資料塊的副本和分散式儲存,實現了高可靠性、高可用性和可擴充套件性。

GFS的主要架構元件,如下圖所示:

分散式儲存最全詳解(圖文全面總結)

1.主節點(Master Node)

GFS架構中有一個主節點,也稱為主伺服器或Master。

主節點負責管理整個檔案系統的後設資料資訊,包括檔案和塊的位置、塊的版本等。它維護了檔案系統的名稱空間。

2.塊伺服器(Chunk Servers)

塊伺服器是負責儲存這些資料塊的節點,每個資料塊都有多個副本,這些副本分佈在不同的塊伺服器上,以提高資料的可靠性和容錯性。

3.客戶端(Client)

GFS的客戶端是執行實際讀寫操作的應用程式或計算任務。


分散式儲存應用場景

以下是分散式儲存的五個常見應用場景:

1.大資料儲存與處理

分散式儲存系統能夠提供高度可擴充套件的儲存,適應大規模資料的需求。

適用於Hadoop、Spark等大資料處理框架,以及需要實時分析和查詢大規模資料的場景。

2.雲端儲存服務

分散式儲存系統能夠在大規模雲環境中管理和儲存使用者的資料,同時提供高可用性和彈性擴充套件。

3.虛擬化儲存

分散式儲存系統能夠為虛擬化環境提供共享儲存,並支援快照、克隆等功能。

4.備份與歸檔

分散式儲存系統可以提供分散式備份、資料冗餘和自動恢復等功能,確保資料的可靠性和永續性。

適用於需要定期備份大量資料、保留歷史版本、並提供容錯性的場景。

5.檔案共享與協作

分散式檔案系統能夠提供分散式檔案共享、一致性名稱空間和高併發的檔案訪問。

適用於團隊協作、文件管理、版本控制等需要共享和協作的場景,如企業內部檔案儲存和協作平臺。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70024922/viewspace-3006908/,如需轉載,請註明出處,否則將追究法律責任。

相關文章