基於Hadoop生態系統的一種高效能資料儲存格式CarbonData(效能篇)
一、評測環境
1)網路拓撲圖
2)配置引數
伺服器配置
二、效能對比
目前主流hadoop的檔案儲存格式有行儲存的CSV格式,列式儲存的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場景和聚合計算場景的效能測試結果。
1)測試資料
建立瀋陽社保的資料倉儲,匯入、整合1年的測試資料,如下表:
生成CarbonData格式檔案,如下表:
2)過濾查詢場景測試
Parquet和CarbonData在過濾查詢場景下的效能對比
3)聚合計算場景測試
Parquet和CarbonData在聚合計算場景下的效能對比
4)總結分析
在過濾查詢中,CarbonData的查詢效率比parquet效率好,主要體現在列資料的索引查詢,極大地提高了精確查詢的效能。在聚合查詢中,CarbonData透過使用全域性字典編碼來加快計算速度,這使得處理、查詢引擎可以直接在編碼好的資料上進行處理而不需要轉換資料,資料只有在返回結果給使用者的時候才轉換成使用者可讀的形式,透過索引有效過濾檔案資料塊減少磁碟的IO,提高查詢效能。
三、小結
CarbonData在資料查詢的效能表現比Parquet好很多,在寫一次讀多次的場景下非常適合使用;社群比較活躍,響應也很及時。目前官網釋出版本1.3.0與最新的spark穩定版Spark2.2.1整合,增加了支援標準的Hive分割槽,支援流資料準實時入庫等新特性,相信會有越來越多的專案會使用到。
原文釋出時間為:2018-07-06
本文作者:東軟
本文來自雲棲社群合作伙伴“ Linux寶庫”,瞭解相關資訊可以關注“ Linux寶庫
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2157571/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 基於Hadoop生態圈的資料倉儲實踐 —— 環境搭建(三)Hadoop
- 基於Hadoop生態圈的資料倉儲實踐 —— 環境搭建(二)Hadoop
- 比較 Apache Hadoop 資料儲存格式 - techwellApacheHadoop
- 儲存系統實現-資料檔案格式
- Hadoop 生態系統Hadoop
- hadoop生態系統Hadoop
- 基於CarbonData的電信時空大資料探索大資料
- Myisam 靜態格式資料儲存結構
- iOS開發資料儲存篇—iOS中的幾種資料儲存方式iOS
- 升訊威線上客服系統的併發高效能資料處理技術:高效能OSS檔案儲存
- 拿去面試!一個基於 DDD 的高效能短鏈系統面試
- hadoop 之Hadoop生態系統Hadoop
- Hadoop高階資料分析 使用Hadoop生態系統設計和構建大資料系統Hadoop大資料
- Hadoop的生態系統 - KEYWORDHadoop
- Kudu:一個融合低延遲寫入和高效能分析的儲存系統
- 基於 XML Schema 的資料儲存方案XML
- 初入Hadoop生態系統Hadoop
- Hadoop工具生態系統指南Hadoop
- Hadoop生態系統介紹Hadoop
- 高效能分散式計算與儲存系統設計概要分散式
- 基於滴滴雲搭 SeaweedFS 儲存系統
- Android的3種資料儲存技術(一)File儲存Android
- 爬蟲資料儲存--基於MonogoDB爬蟲MonoGo
- 一步一步學習大資料:Hadoop 生態系統與場景大資料Hadoop
- 關於高效能聊天系統的一個問題
- 作業系統儲存管理和oracle資料庫(第一篇)作業系統Oracle資料庫
- GitChat · 大資料 | 一步一步學習大資料:Hadoop 生態系統與場景Git大資料Hadoop
- 儲存與資料庫系統資料庫
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- 集各種儲存器優異效能於一身的MRAM
- 關於資料儲存的一個故事
- 基於JS的高效能Flutter動態化框架MXFlutterJSFlutter框架
- 基於Oracle的高效能動態SQL程式開發OracleSQL
- redis-5.資料儲存格式Redis
- 資料儲存的三種方式
- 儲存系統實現-構建自己的儲存系統(一)
- MySQL 高效能儲存引擎:TokuDB初探MySql儲存引擎
- 高效能Sqlite儲存模型物件解密SQLite模型物件解密