大資料小視角2：ORCFile與Parquet，開源圈背後的生意

happenlee發表於2018-05-25

原文網址 : https://flycode.co/archives/236820

上一篇文章聊了聊基於PAX的混合儲存結構的RCFile，其實這裡筆者還了解一些八卦，RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的，算是一個由華人主導的編碼專案。但是RCfile仍然存在一些缺陷，後續被HortonWorks盯上之後上馬了ORCFile格式，而老對頭Cloudera則緊抱Google大腿推出了Parquet格式。其實二者需要解決的問題是殊途同歸的，但是不同的爹似乎導致了不太相同的命運。這篇文章，我們主要還是聊聊兩者的技術細節，再穿插一些開源圈的商業八卦~~~

1.ORCFile

Facebook在 2011年的 ICDE 會議之上釋出了RCFile。之後RCFile在Hive之中作為很好的列儲存模型被廣泛使用，雖然RCFile能夠很好的提升Hive的工作效能，但是在Facebook論文之中也提出了一些RCFile值得改進的地方。所以在2013年，HortonWorks就在RCFile的基礎之上開發出了ORCFile，並且ORCFlie很順利地在2015年成為Apache的頂級專案。接下來我們來看一看ORCFile相對於原本的RCFile解決了什麼樣的問題：

列資料的型別感知：與RCFile之前對於列資料都統一為Blob資料不同，ORCFile可以感知列的資料型別，做出更為合理的資料壓縮選擇。顯然，這樣可以節省不少儲存資源。（Facebook論文之中已經提到這個思路了，但是釋出論文的時候還沒有實現，屬於一個next to do的工作）
巢狀資料型別支援：ORCFile可以在列資料之中插入Struct，Union，List，Map等資料，讓資料的操作更加靈活，也更加適合非結構化資料的儲存與處理。
謂詞下推：這個算是RCFile原先功能的補強，在後設資料層面增加了很多內容，來利用謂詞下推加速處理的過程。ORCFile自己稱之為輕量級索引，其實就是一些相較於RCFile更為詳細的統計資料。

儲存結構

首先，我們先來看看ORCFile的儲存結構。如下圖所示，ORCFile完全拋棄了原有RCFile之中所謂Row Group的概念。引入了三個新的元件，我們分別來看看對應元件的內容：

(1) stripe：stripe是ORC檔案的主體，還記的上文提到RCfile之中的Row Group的大小為4MB，而stripe的大小膨脹到了250MB。（果真還是越大越好麼~~）至於為什麼選擇250MB這個大小的用意也很明顯，是為了與底層HDFS的塊大小契合，來減少MapReduce處理時可能會帶來的通訊損耗。 stripe也分為具體三個部分：
- Index Data：儲存每行的統計資料，預設是10000行的大小。Index Data在Strip的最前面，因它們只在使用謂詞向下推或讀者尋找特定行時載入。（這裡主要利用的是統計資訊與布隆過濾器實現的）
- Row Data：實際儲存資料的單元，利用列存原理，對不同列可以實現不同壓縮方案，所有的列資料可以組成行資料。
- Stripe Footer：儲存了每個列的編碼與位置。
(2) File Footer：部分包含Row data的佈局、型別資訊、行數和每個列的統計資訊。通過這塊可以篩選出需要讀取列的資料。至於型別訊息，假如有如下的表定義：

  create table Foobar (
    myInt int,
     myMap map<string,
     struct<myString : string,
     myDouble: double>>,
     myTime timestamp
);

則定義的型別是如同下圖的巢狀模式：
ORCFile的型別

(3) PostScript：這塊儲存的內容就是ORCFile的後設資料了，包括了使用的壓縮型別，各個資料的長度等。由於HDFS只支援Append的操作，所以，後設資料放在檔案的末尾是便於修改的。

上述就是ORCFile核心的儲存結構了。對比原先的RCFile，ORCFile沒有標新立異的之處，只是補足了資料壓縮與資料處理的短板。

2.Parquet

Google同樣在 2010年釋出了最新互動處理的資料系統Dremel，並且在Dremel之上構建了一個與Protocol Buffer相容的資料模型。基本上Google推出啥，開源圈一定會照貓畫虎的弄一個出來。於是同樣在2013年，Cloudera與Twitter針對Dremel的資料模型為模板，推出了Parquet，Parquet同樣在2015年順利“畢業”，成為Apache的頂級專案。

其實Parquet與ORCFile像是孿生兄弟，許多設計的思路與細節是相同的，都是列儲存，資料壓縮那一套。所以這裡筆者不展開來講Parquet的技術細節了，而是結合Google的論文，來看一看Parquet與ORCFile最大的區別：資料模型。

資料模型

為了相容Protocol Buffer的巢狀結構，Google的工程師設計了很精巧的模型來將Protocol Buffer的結構落地到實際的儲存結構之中。坦白說，這或許是Google內部為了相容Protocol Buffer而實現的一個很trade off的設計，所以看起來有點奇怪：

Protocol Buffer的資料格式

如上圖所示，通過Protocol Buffer定義了一個組合型別Document，其中required欄位是必須填寫的，optional欄位是可以省略的，而repeated欄位是可以重複的欄位。其中I1與I2為示例資料。如何將上述的資料模型轉換為列存呢？我們接著往下看：

將巢狀欄位切分之後變為列存的模式

首先，將上述結構之中每一個欄位拆分出來，就可以變為列儲存的模式了。但是接下來的問題在於如何處理非結構化資料之中repeated與optional欄位。這裡是通過Repetition Level與Definition Level才能來完整的還原資料的結構。

Repetition Level：顧名思義，記錄了該列的值是在哪一個級別的欄位上重複的。
Definition Level：對於非NULL值並沒有什麼意義，因為非NULL值Definition Level一定是相同的。（顯然是可以壓縮儲存）記錄了該列的值是在哪一個級別上開始作為NULL值儲存的。

通過上述的兩個值，便可以通過有限狀態機來還原Protocol Buffer格式所定義的資料結構，落地到實際的儲存之中。（這裡涉及到列儲存的跳轉，詳細的內容可以參考Dremel論文的原文）

上述Parquet的核心就在於：通過巢狀的資料模型設計來規避Join操作和掃描最少的列儲存。下圖是Parquet的資料模型，可以看出除了列存的模式之外，其餘與ORCFile大同小異，筆者在這裡就不進贅述了：

Parquet的資料結構

3.ORCfile與Parquet的比較

目前兩者都作為Apache的頂級專案來進行維護，但是無論是設計的思路還是合理性都是ORCFile更為優秀。簡單來說，對於OLAP的應用，本身就是需要通過ETL的流程進行資料的格式複寫，對於Protocol Buffer的相容的必要性這塊，筆者是存疑的。

但是或許是因為背後所主導的力量不同，畢竟是出身名門，在各個儲存系統的支援上，和實際的運用之中，Parquet還是佔了很大的優勢。縱觀It產業的歷史發展，從來都不是因為技術優勢而能夠贏得賽跑的。從ORCFile與Parquet目前在開源上的不同境遇來看，也符合兩家公司的在資本市場上的表現吧。

Hortonworks市值為13.63億美元

Cloudera市值為20.49億美元

但是無論商業競逐上的勝利與失敗，能夠開源好的技術來便利開發者與使用者，應該都是一件功德無量的事情。

SparkSQL：Parquet資料來源之合併後設資料
2018-09-26
SparkSQL
大資料小視角5：探究SSD寫放大的成因與解決思路
2021-09-09
大資料
大資料小視角1：從行儲存到RCFile
2021-09-09
大資料
大資料小視角3：CarbonData，來自華為的中國力量
2018-06-20
大資料
上帝視角一覽大資料開發體系
2022-12-07
大資料
直播背後的視訊雲大戰
2020-08-03
揭秘“資料咖啡”瑞幸背後的大資料危機
2020-04-15
大資料
宜信開源|大資料可視洞察Davinci的安裝與配置攻略
2019-07-30
大資料
“社群”生意爆紅的背後有哪些真相？
2019-07-24
朋友圈爆款背後的計算機視覺
2019-01-06
計算機視覺
葉聰：朋友圈背後的計算機視覺技術與應用
2018-08-14
計算機視覺
朋友圈爆款背後的計算機視覺技術與應用（附視訊）
2018-06-03
計算機視覺
朋友圈那串神秘字元背後的開源專案「GitHub 熱點速覽」
2023-02-06
字元Github
揭開資料背後的真相：WOT2016大資料技術峰會來襲
2018-05-15
大資料
NFT遊戲火爆依舊,解析鏈遊背後的生態與生意
2022-05-21
遊戲
資料來源Parquet之使用程式設計方式載入資料
2018-09-26
程式設計
Spring Cloud Alibaba 開源背後的故事 | 開源中國專訪
2018-11-28
SpringCloud
揭開微盟百萬商家營銷大戰背後的資料庫祕密
2021-11-11
資料庫
全球最大的第一視角視訊資料集開源，取自真實生活，還能提升廚藝
2018-04-18
資料驅動背後的“陷阱”
2020-11-25
開源筆記軟體 Joplin 背後的故事
2022-10-21
筆記
資料庫索引背後的資料結構
2019-02-26
資料庫索引資料結構
為你揭祕小程式音視訊背後的故事......
2018-08-24
BI“後浪”觀遠資料的AI生意經
2020-06-12
AI
DevOps 視角的前後端分離與實戰
2020-11-03
dev後端
即將開源 | 2億使用者背後的Flutter應用框架Fish Redux
2019-01-16
Flutter框架Redux
Spark SQL：Parquet資料來源之自動分割槽推斷
2018-09-26
SparkSQL
年度遊戲的有力競爭者，《死亡迴圈》與背後的Arkane
2021-11-01
遊戲
Steam背後大資料：遊戲開發者最終只分得38%流水
2020-01-15
大資料遊戲開發
騰訊葉聰：朋友圈爆款背後的計算機視覺技術與應用
2022-06-19
計算機視覺
所有權背後的資料互動
2022-02-28
"淘寶大資料揭秘：購物狂歡節背後的秘密！"
2023-10-07
大資料
大資料與 AI 生態中的開源技術總結
2019-02-21
大資料AI
開源網格VPN meshboi及其背後原理
2021-07-16
Vercel 與 Next.js：開源全明星團隊背後的商業邏輯
2022-01-26
JS
產品視角下的資料倉儲
2022-04-21
網易雷火UX在GDC演講：大資料視角下的多人線上開服策略
2021-07-29
UX大資料
把上次開發的小程式，整理後開源
2021-09-01