基於Hadoop生態系統的一種高效能資料儲存格式CarbonData(效能篇)
一、評測環境
1)網路拓撲圖
2)配置引數
伺服器配置
二、效能對比
目前主流hadoop的檔案儲存格式有行儲存的CSV格式,列式儲存的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場景和聚合計算場景的效能測試結果。
1)測試資料
建立瀋陽社保的資料倉儲,匯入、整合1年的測試資料,如下表:
生成CarbonData格式檔案,如下表:
2)過濾查詢場景測試
Parquet和CarbonData在過濾查詢場景下的效能對比
3)聚合計算場景測試
Parquet和CarbonData在聚合計算場景下的效能對比
4)總結分析
在過濾查詢中,CarbonData的查詢效率比parquet效率好,主要體現在列資料的索引查詢,極大地提高了精確查詢的效能。在聚合查詢中,CarbonData透過使用全域性字典編碼來加快計算速度,這使得處理、查詢引擎可以直接在編碼好的資料上進行處理而不需要轉換資料,資料只有在返回結果給使用者的時候才轉換成使用者可讀的形式,透過索引有效過濾檔案資料塊減少磁碟的IO,提高查詢效能。
三、小結
CarbonData在資料查詢的效能表現比Parquet好很多,在寫一次讀多次的場景下非常適合使用;社群比較活躍,響應也很及時。目前官網釋出版本1.3.0與最新的spark穩定版Spark2.2.1整合,增加了支援標準的Hive分割槽,支援流資料準實時入庫等新特性,相信會有越來越多的專案會使用到。
原文釋出時間為:2018-07-06
本文作者:東軟
本文來自雲棲社群合作伙伴“ Linux寶庫”,瞭解相關資訊可以關注“ Linux寶庫
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2157571/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 比較 Apache Hadoop 資料儲存格式 - techwellApacheHadoop
- Hadoop高階資料分析 使用Hadoop生態系統設計和構建大資料系統Hadoop大資料
- iOS開發資料儲存篇—iOS中的幾種資料儲存方式iOS
- 升訊威線上客服系統的併發高效能資料處理技術:高效能OSS檔案儲存
- 基於CarbonData的電信時空大資料探索大資料
- 初入Hadoop生態系統Hadoop
- Android的3種資料儲存技術(一)File儲存Android
- 拿去面試!一個基於 DDD 的高效能短鏈系統面試
- Hadoop基礎(二):從Hadoop框架討論大資料生態Hadoop框架大資料
- 一步一步學習大資料:Hadoop 生態系統與場景大資料Hadoop
- 基於滴滴雲搭 SeaweedFS 儲存系統
- 爬蟲資料儲存--基於MonogoDB爬蟲MonoGo
- Hadoop 基石HDFS 一文了解檔案儲存系統Hadoop
- 集各種儲存器優異效能於一身的MRAM
- redis-5.資料儲存格式Redis
- 基於kubernetes雲作業系統的生態系統 - Kelsey Hightower作業系統
- 基於JS的高效能Flutter動態化框架MXFlutterJSFlutter框架
- 原來大資料 Hadoop 是這樣儲存資料的大資料Hadoop
- 基於商業版Hadoop搭建的資料倉儲解決方案Hadoop
- 面向海量資料,一篇文章認識Ceph分散式儲存系統分散式
- 基於Raft的分散式MySQL Binlog儲存系統開源Raft分散式MySql
- 《MySQL 基礎篇》十二:InnoDB 儲存引擎的資料結構MySql儲存引擎資料結構
- Hadoop 基礎之生態圈Hadoop
- 滴滴基於Clickhouse構建新一代日誌儲存系統
- Greenplum 效能優化之路 --(二)儲存格式優化
- IT十年-大資料系列講解之hadoop生態系統及版本演化大資料Hadoop
- 大資料檔案儲存系統HDFS大資料
- Hadoop生態系統應用狀況大調查:網際網路篇!Hadoop
- 前端基於瀏覽器儲存的AJAX效能優化前端瀏覽器優化
- 【儲存資料恢復】IBM儲存檔案NTFS系統損壞的資料恢復案例資料恢復IBM
- Elasticsearch 基於物件儲存使用快照資料遷移Elasticsearch物件
- 銀行業生產系統儲存資料遷移方法及實踐行業
- 基於python的大資料分析-pandas資料儲存(程式碼實戰)Python大資料
- 使用 Ansible 在樹莓派上構建一個基於 Linux 的高效能運算系統樹莓派Linux
- 高效能的連線管理和資料路由元件,OceanBase 生態工具 ODP 詳解路由元件
- Bond——大資料時代的資料交換和儲存格式大資料
- LightKV-高效能key-value儲存元件元件
- RocketMQ高效能之底層儲存設計MQ