大資料小視角3：CarbonData，來自華為的中國力量

happenlee發表於2018-06-20

原文網址 : https://flycode.co/archives/236797

連續兩篇文章都聊了不同的儲存格式，這篇我們繼續深入來看看在儲存格式的演變之上有什麼新的“黑科技”。華為公司在2016年開源了類parquet的列存格式：CarbonData，並且貢獻給了Apache社群。CarbonData僅僅用了不到一年的時間就成功畢業，成為了Apache社群的頂級專案，CarbonData是首個由華人公司主導的Apache頂級專案，（來源自eBay的Kylin算是首個由華人主導的頂級開源專案）筆者這裡還是要向華為的小夥伴們致敬，能夠完成這樣一個從0到1的突破。
本篇筆者嘗試從技術細節來梳理CarbonData與其“前輩”到底有何不同之處，我們在實際應用與設計儲存格式時有什麼可以借鑑汲取之處。

1.CarbonData

首先我們來看看CarbonData本身的定位，如下圖所示：
單一儲存資料滿足多種資料應用場景

1、支援海量資料掃描並取其中幾列；
2、支援根據主鍵進行查詢，並在秒級響應；
3、支援在海量資料進行類似於OLAP的互動式查詢，並且查詢中涉及到許多過濾條件，這種型別的workload應該在幾秒鐘內響應；
4、支援快速地抽取單獨的記錄，並且從該記錄中獲取到所有列資訊；
5、支援HDFS，無縫對接Hadoop生態圈，天生帶有分散式基因。

對於OLAP查詢來說，存在多種不同型別的查詢，儲存結構的不同會影響到不同查詢的資料表現。所以CarbonData的定位是作為一種通用的查詢儲存資料，通過Spark SQL來解決海量查詢的問題，並且能夠與Hadoop生態圈進行無縫對接。CarbonData最初的應用是與Spark SQL和Spark DataFrame深度結合，後續由攜程團隊將CarbonData引入了Presto，滴滴團隊將CarbonData引入Hive。

其實無論是多維的OLAP查詢，還是完整的掃描查詢，還是部分範圍查詢。CarbonData的前輩ORCFile與Parquet都可以同樣完成任務，那麼作為新人，CarbonData有什麼過人之處呢？

快，更快

下圖是華為提供進行實測的資料，在絕大多數的測試場景之中CarbonData的效能都略優於Parquet。
TPC-H的查詢測試

當然快速的查詢是需要付出代價的，查詢的快速所犧牲的是壓縮率的減小與入庫時間的延長。

TPC-H的入庫與壓縮測試

那我們接下來就是要詳盡討論CarbonData的效能表現與底層設計之間的邏輯關係。

檔案結構

下圖展示了CarbonData的資料儲存格式：
圖片.png

File Header
檔案頭的格式比較簡單，儲存了儲存格式的版本和模式資訊。（這部分通常是穩定不可變的內容）
Blocklet
單Blocklet最大的容量閥值為64M，也就是說單個HDFS的Block可以容納多個Blocklet（視Block的大小而定）。這塊內容與ORCFile與Parquet的設計一脈相承，都是利用Pax的儲存模型來優化資料查詢時的效能表現。
File Footer
在檔案尾部儲存了儲存資料的索引和摘要，索引是CarbonData最為核心的關鍵實現，正是由於索引的存在，大大提高了CarbonData在不同查詢場景之下的效能表現。

二級索引

CarbonData通過支援了二級索引，大大的提高了CarbonData資料查詢的效能表現。
CarbonData的二級索引

由上圖所示CarbonData在HDFS Block級別與內部的Blocklet級別都分別建立起索引，這樣可以大大減少非必要的任務啟動與非必要的磁碟IO操作。眾所周知，引入索引的的確確能夠加快資料的查詢速率，但是天下沒有免費的午餐。我想CarbonData壓縮率縮減與資料匯入時間的延長的原因，想必讀者心中也有了答案。

在Blocklet內部索引在記憶體之中B+樹的形式實現

我們可以看到在CarbonData的檔案尾部，通過B+樹的方式來實現索引。由於HDFS追加寫的特性，所以我想讀者應該也能明白為何這些索引資料與統計資料需要存放在CarbonData的末尾。

通過二級索引的一次落地查詢

上圖完整的展現了一次過濾查詢的流程，這個過程在二級索引的作用之下，規避了大量非必要的查詢互動，由此帶來的效能優化是十分明顯的。

相對於ORCFile與Parquet相對簡要的摘要索引，CarbonData在索引層面頗費心思。通過這樣的方式來超越前輩，當然這樣的選擇設計同樣也要付出額外的代價。

全域性字典編碼

這是CarbonData之中頗具爭議的功能，在CarbonData之前的版本是預設新增的內容，目前在1.3版本之中是作為可選項加入其中的。（筆者在華為高斯部門工作的師兄也曾經和筆者吐槽過在生產環境之中，全域性字典編碼的似乎還存在一些`坑`）所以看起來能夠運用好字典編碼的確是個值得探討的問題，筆者在此也簡單聊一聊：

CarbonData全域性字典編碼

如上圖所示，全域性字典編碼的方式很簡單，就是通過數字和字典來替換表格之中重複出現的資料。 這樣的好處很明顯：

大大減少了表格資料所需要儲存的資料量
某些需要進行group by的欄位進行全域性字典編碼，可以大量減少計算時的shuffle的資料量。以達到效能提升的目的。

但是在將資料匯入CarbonData的過程之中，對與重複率較低的列，一旦建立起全域性字典，顯然會大大拖慢資料的匯入速度，並且影響資料的壓縮程度。而如果對於資料重複率較高的資料，例如性別，年齡等高重複資料，通過建立全域性字典能夠大大提升CarbonData的壓縮程度，並且對資料匯入的速率影響不大。

筆者建議：對於字典編碼的使用，還是要根據具體也業務場景進行分析壓測，給出較為合適的使用方式，盲目使用字典編碼反而會對效能帶來負優化。

2.小結

到此為止，筆者也大致聊完了對CarbonData儲存結構的理解以及筆者在簡單實踐之中所引發的思考。 作為華人圈子之中首個由華人公司主導的Apache的頂級專案，筆者也會繼續對CarbonData進行關注與學習，也希望將來華人程式設計師能夠在開源圈之中繼續擴大影響力。

來自域外的視角
2020-09-29
大資料小視角1：從行儲存到RCFile
2021-09-09
大資料
華為領跑中國政務大資料市場
2019-03-11
大資料
大資料小視角2：ORCFile與Parquet，開源圈背後的生意
2018-05-25
大資料
大資料小視角5：探究SSD寫放大的成因與解決思路
2021-09-09
大資料
中國視聽大資料：2023年3月收視綜合分析月報
2023-04-19
大資料
上帝視角一覽大資料開發體系
2022-12-07
大資料
基於CarbonData的電信時空大資料探索
2021-11-25
大資料
語言的力量主要來自於社群
2019-07-05
中國大學排名資料分析與視覺化
2024-05-29
視覺化
態勢感知、聯防聯動，資料安全綜合治理平臺為資料安全帶來新視角
2023-05-04
中國視聽大資料：2020年年度中國電視收視綜合分析
2021-01-12
大資料
換個視角來看TypeScript中的交叉運算
2023-03-03
TypeScript
CVB：2021年中國視聽大資料收視年報
2022-01-19
大資料
華為手機怎麼設定來電視訊？華為EMUI來電視訊秀的設定教程
2019-12-12
UI
產品視角下的資料倉儲
2022-04-21
計算機“系統”視角中的未來願景
2018-10-29
計算機
浙江大學陳為“大資料視覺化”
2019-04-11
大資料視覺化
華東師範大學副校長周傲英：未來，中國需要什麼樣的資料庫？
2023-04-28
資料庫
華為雲大資料，幫助企業搭好資料底座
2022-11-28
大資料
深度對比Apache CarbonData、Hudi和Open Delta三大開源資料湖方案
2020-10-29
Apache
我國大資料未來的發展方向
2019-06-10
大資料
中國信通院：2022年資料要素流通視角下資料安全保障研究報告（附下載）
2023-02-15
中國視聽大資料：2023年收視季報·第1期
2023-04-28
大資料
大資料成為推動旅遊產業升級和發展的重要力量
2023-04-07
大資料產業
2018華為雲區塊鏈全球開發者大賽——小連結大未來
2018-10-11
區塊鏈
大資料是什麼？華為雲學院帶你探索大資料之旅
2018-10-08
大資料
manim 中的三維視角
2024-08-18
華雲大咖說 | 華雲資料與小雷科技攜手共建國產雲生態為使用者資訊保安保駕護航
2021-01-25
"她力量"讓夢想照進現實，共話來自 Google 谷歌的女性力量
2022-01-15
Go谷歌
新華體育：2017中國騎行運動大資料包告
2018-05-09
大資料
做電商的看過來，華為雲大資料BI方案驅動業務增長
2022-11-28
大資料
2019中國大資料技術大會即將來臨，邀您共赴！
2019-11-19
大資料
中國司法大資料研究院：網購糾紛七成來自天貓淘寶
2018-06-16
大資料
中國視聽大資料：2022年11月收視綜合分析月報
2022-12-23
大資料
Lotame：全球視角下資料協作的狀態
2025-01-15
大資料分析為啥越來越重要
2021-12-09
大資料
工信部：2019年中國大資料企業50強：華為、騰訊、阿里位列前三
2019-09-18
大資料阿里