Hbase和Hive的特點,和應用場景
Hbase是什麼?
Hbase是一個架構在Hdfs檔案系統上的列式儲存,是開源的,分散式,面向列的資料庫。適合於非結構化資料儲存的資料庫。
Hbase是一個高可靠、高效能、面向列、可伸縮的分散式儲存系統,可以在廉價的PC Server搭建大規模結構化儲存叢集.
1,HBase位於Hadoop生態系統的結構化儲存層。
image
2,HDFS作為其底層的檔案儲存
3,MapReduct為Hbase提供高效能的計算能力
4,Zookeeper為HBase提供了穩定的服務和failover的能力
image
Hive是什麼?
hive是一個基於Hadoop的一個資料倉儲工具。可以將結構化資料對映為一張資料庫表,並且提供sql的查詢能力,可以將sql換換為MapReduce任務進行。
下面我們看看Hive的架構圖:
1,使用者介面,hive主要有三個介面,CLI(CLI啟動的時候會同時氣筒一個Hive的副本),Client(hive的客戶端,連結hive server),web UI(透過瀏覽器訪問)
2,後設資料儲存,hive將後設資料儲存在資料庫中如:mysql。
3,Driver(直譯器、編譯器、最佳化器、執行器):完成詞法分析,語法分析,最佳化,編譯,最佳化以及查詢計劃的生成,隨後由MapReduce使用。
4,Hadoop ,hive的資料儲存在Hdfs中。大部分的查詢由MapReduce完成。
image
Hbase
上面我們分別看了Hbase的特點,hive的特點,那麼Hbase和Hive的差別是什麼以及各自的使用場景是什麼?
Hbase和Hive 二者都是以Hdfs為檔案儲存。
Hbase支援列擴充套件,可以對單元格修改。採取K-V的設計,因此查詢效率比較高,一般用於延遲忍耐低的場景;還有就是經常需要擴充套件屬性,修改屬性場景。
Hbase的查詢一般透過命令視窗進行,語句比較負責,但是hive的採用標準的sql語法,門檻低,上手簡單。當然Hbase也有Phoenix可以去支援 sql這樣的語法操作。
下面看看hbase具體的應用場景:
千萬併發、PB儲存、KV基礎儲存、動態列、強同步、稀疏表、二級索引、SQL
image
物件儲存:頭條類、新聞類的的新聞、網頁、圖片儲存在HBase之中,一些病毒公司的病毒庫也是儲存在HBase之中。
時序資料:HBase之上有OpenTSDB模組,可以滿足時序類場景的需求。
推薦畫像:使用者的畫像,是一個比較大的稀疏矩陣。螞蟻的風控就是構建在HBase之上。
時空資料:主要是軌跡、氣象網格之類,滴滴叫車的軌跡資料主要存在HBase之中,另外在技術所有大一點的資料量的車聯網企業,資料都是存在HBase之中
CubeDB OLAP:Kylin一個cube分析工具,底層的資料就是儲存在HBase之中,不少客戶自己基於離線計算構建cube儲存在hbase之中,滿足線上報表查詢的需求。
訊息/訂單:在電信領域、銀行領域,不少的訂單查詢底層的儲存,另外不少通訊、訊息同步的應用構建在HBase之上。
訊息/訂單:在電信領域、銀行領域,不少的訂單查詢底層的儲存,另外不少通訊、訊息同步的應用構建在HBase之上。
Hive 不能支援列擴充套件,支援追加,好像在新版本中可以支援修改,但是效率比較低。Hive處理的資料的吞吐量高,檔案越大,hive的優勢就約明顯。一半用於 延遲忍耐高的場景。
下面再來看看Hive的具體使用場景:
1,分析網路日誌。
2,ETL清洗資料。
3,構建資料倉儲。
4,資料探勘
最後在總結:Hbase和Hive本身都不能儲存資料。二者都是對Hdfs上的檔案在做了一次組織。從而適應不同的場景。Hbase 在與查詢,動態列場景更有優勢,但是無法進行資料分析和挖掘。二Hive本身無法在低延遲的場景下使用。Hive可以處理大量資料的ETL清洗。構建統一的標準的資料倉儲,從而提供基礎資料,共上層資料分析。所以hive更加偏向於資料分析。
作者:資料僧
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4550/viewspace-2819596/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hbase學習二:Hbase資料特點和架構特點架構
- 資料倉儲、DataVault、DataLake、DeltaLake、DataFabric、DataMesh的特點和典型應用場景
- Hive和Hbase的區別Hive
- Hbase原理的介紹和使用場景分析
- 身份證識別應用場景及功能特點
- 大資料之hadoop / hive / hbase 的區別是什麼?有什麼應用場景?大資料HadoopHive
- Kubernetes的優勢、適應場景及其特點
- 防抖和節流的應用場景和實現
- 1.CSS和iStack的區別和應用場景CSS
- 什麼是Hive?它有哪些特點和特性?Hive
- go的 & 和 * 的區別,以及應用場景Go
- Jtti:什麼是分散式伺服器?特點和適用場景分析Jtti分散式伺服器
- js代理模式理解和應用場景JS模式
- Zookeeper應用場景和ZAB協議協議
- Hive簡介、應用場景及架構原理Hive架構
- js的淺拷貝和深拷貝和應用場景JS
- MongoDB、Hbase、Redis等NoSQL優劣勢、應用場景MongoDBRedisSQL
- USDT支付通道開發-特點以及實現應用場景落地
- 3D點雲資料的標註方法和應用場景 | 景聯文科技3D
- iOS runtime執行時的作用和應用場景iOS
- hive時間日期函式及典型場景應用Hive函式
- AR真人大屏互動的應用形式和特點
- 數字孿生在能源電力行業的技術難點和應用場景行業
- 秒殺系統的場景特點
- Hbase一:Hbase介紹及特點
- 如何理解UDP 和 TCP? 區別? 應用場景?UDPTCP
- Redis的應用場景及優缺點Redis
- 工業智慧閘道器的功能和應用場景
- 棧的應用場景思路分析和程式碼實現
- 大資料技術Hbase和Hive詳解大資料Hive
- WebAssembly現在和未來應用場景大全 - harshalWeb
- Streaming特性和適用場景
- 初識MapReduce的應用場景(附JAVA和Python程式碼)JavaPython
- 談談redis,memcache的區別和具體應用場景Redis
- Java程式中的代理作用和應用場景及實現Java
- 世鏈財經|區塊鏈新媒體有哪些獨特的傳播方式和應用場景區塊鏈
- 遞回應用場景和呼叫機制以及問題和規則
- Numpy的應用場景