好程式設計師大資料紀實:HBase知識點集中總結

好程式設計師IT發表於2019-05-15

  好程式設計師大資料紀實: HBase知識點集中總結, HBase – Hadoop Database,是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。

   FUJITSU Cliq等商用大資料產品不同,HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其檔案儲存系統,HBase利用Hadoop HDFS作為其檔案儲存系統;Google執行MapReduce來處理Bigtable中的海量資料,HBase同樣利用Hadoop MapReduce來處理HBase中的海量資料;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。

一、 hbase的特性

  1、hbase資料的終持久化儲存是基於hsfs檔案系統,儲存容量幾乎無限,可以隨時線上擴容。

  2、hbase的資料增刪改查功能模組是分散式系統。

  3、nosql資料庫,表結構。

二、 HBase的儲存

  HBase中的所有資料檔案都儲存在Hadoop HDFS檔案系統上。

  1. HFile, HBase中KeyValue資料的儲存格式,HFile是Hadoop的二進位制格式檔案,實際上StoreFile就是對HFile做了輕量級包裝,即StoreFile底層就是HFile。

   2. HLog File,HBase中WAL(Write Ahead Log) 的儲存格式,物理上是Hadoop的Sequence File。

三、 HBase工作機制

hbase工作機制詳細解析:

   1、hbase的整體工作機制是接受客戶端發來的請求命令,從hdfs中讀取表檔案資訊返回給客戶端;

   2、每個hbase伺服器負責表檔案中對應region區域,hdfs上表檔案的儲存也是分為每個region單獨儲存,每個region中又分為多個列族儲存;

   3、hbase叢集中有兩種角色,regionserver和master,regionserver負責響應客戶端請求,讀取表檔案;

  master負責監控regionserver的狀態,以便及時處理掉線的regionserver,保證hbase叢集正常執行;當一個region掛掉時,master會及時監控到,這裡利用了zookeeper管理regionserver狀態資訊。

  當一個 master掛掉時,不會影響客戶端查資料,但如果此時regionserver掛掉,master又不能及時監控到,便會影響資料查詢;解決方法就是再設定一臺master,一臺active狀態,一臺standby狀態用作備用,當active的master掛掉,standby的master將會變為active狀態,監控regionserver。

   4、master和zookeeper就組成了高可用。

   大資料開發之路不易,大家且行且珍惜。好程式設計師為大家的學習保駕護航。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2644494/,如需轉載,請註明出處,否則將追究法律責任。

相關文章