Apache Arrow 記憶體資料

哥不是小蘿莉發表於2017-02-05

1.概述

　　Apache Arrow 是 Apache 基金會全新孵化的一個頂級專案。它設計的目的在於作為一個跨平臺的資料層，來加快大資料分析專案的執行速度。

2.內容

　　現在大資料處理模型很多，使用者在應用大資料分析時，除了將 Hadoop 等大資料平臺作為一個儲存和批處理平臺之外，同樣也得關注系統的擴充套件性和效能。過去開源社群已經發布了很多工具來完善大資料分析的生態系統，這些工具包含了資料分析的各個層面，例如列式儲存格式（Parquet，ORC），記憶體計算模型（Drill，Spark，Impala 和 Storm）以及其強大的 API 介面。而 Arrow 則是最新加入的一員，它提供了一種跨平臺應用的記憶體資料交換格式。

　　在資料快速增長和複雜化的情況下，提高大資料分析效能一個重要的途徑是對列式資料的設計和處理。列式資料處理藉助了向量計算和 SIMD 使我們可以充分挖掘硬體的潛力。而 Apache Drill 其大資料查詢引擎無論是在硬碟還是記憶體中資料都是以列的方式存在的，而 Arrow 就是由 Drill 中的 Value Vector 這一資料格式發展而來。此外，Arrow 也支援關係型和動態資料集。

　　Arrow 的誕生為大資料生態帶來了很多可能性，有了 Arrow 作為今後標準資料交換格式，各個資料分析的系統和應用之間的互動性可以說是揭開了新的篇章。過去大部分的 CPU 週期都花在了資料的序列化與反序列化上，現在我們則能夠實現不同系統之間資料的無縫連結。這意味著使用者在不同系統結合時，不用在資料格式上話費過多的時間。

3.Arrow Group

　　Arrow 的記憶體資料結構如下所示：

　　從上圖中，我們可以很清晰的看出，傳統的記憶體資料格式，各個欄位的分佈是以沒一行呈現，相同欄位並未集中排列在一起。而通過 Arrow 格式化後的記憶體資料，可以將相同欄位集中排列在一起。我們可以很方便的使用 SQL 來運算元據。

　　傳統的訪問各個資料模型中的資料以及使用 Arrow 後的圖，如下所示：

　　通過上圖可以總結出以下觀點：

每個系統都有屬於自己的記憶體格式。
70～80% 的 CPU 浪費在序列化和反序列化上。
在多個專案都實現的類似的功能（Copy & Convert）。

　　而在看上述使用 Arrow 後，得出以下結論：

所有的系統都使用相同的記憶體格式。
沒有跨系統通訊開銷。
專案可以貢獻功能（比如，Parquet 到 Arrow 的讀取）。

4.Arrow 資料格式

　　Arrow 列式資料格式如下所示：

persons = [{
    name: 'wes',
    iq: 180,
    addresses: [
    {number: 2, street 'a'},
    {number: 3, street 'bb'}
    ]
}, {
    name: 'joe',
iq: 100,
addresses: [
{number: 4, street 'ccc'}, {number: 5, street 'dddd'}, {number: 2, street 'f'}
]
}]

　　從上述 JSON 資料格式來看，person.iq 分別是 180 和 100，以如下方式排列：

　　而 persons.addresses.number 的排列格式如下所示：

5.特性

5.1 Fast

　　Apache Arrow 執行引擎，利用最新的SIMD（單輸入多個資料）操作包括在模型處理器，用於分析資料處理本地向量優化。資料的列式佈局也允許更好地利用 CPU 快取，將所有與列操作相關的資料以儘可能緊湊的格式放置。

5.2 Flexible

　　Arrow 扮演著高效能的介面在各個複雜的系統中，它也支援工業化的程式語言。Java，C，C++，Python 以及今後更多的語言。

5.3 Standard

　　Apache Arrow 由 13 個開源專案開發者支援，包含 Calcite, Cassandra, Drill, Hadoop, HBase, Ibis, Impala, Kudu, Pandas, Parquet, Phoenix, Spark, 和 Storm。

6.Example

　　使用 Python 來處理 Spark 或是 Drill 中的資料，如下圖所示：

快速的、語言無關的二進位制資料幀格式的檔案。
使用 Python 去寫。
讀取速度接近磁碟 IO 效能。

　　部分實現示例程式碼，如下所示：

import feather
path = 'my_data.feather'
feather.write_dataframe(df, path)
df = feather.read_dataframe(path)

7.總結

　　Apache Arrow 當前釋出了 0.1.0 第一個版本，官方目前獲取的資料的資訊較少，大家可以到官方的 JIRA 上獲取更多諮詢資訊，以及 Arrow 提供的開發者聊天室去獲取更多的幫助。

8.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

記憶體資料庫
2014-06-16
記憶體資料庫
Apache Spark 記憶體管理詳解
2017-03-31
ApacheSpark記憶體
Apache Arrow DataFusion原理與架構
2023-05-15
Apache架構
Mongodb記憶體資料庫
2017-10-24
MongoDB記憶體資料庫
記憶體資料庫如何發揮記憶體優勢？
2023-02-21
記憶體資料庫
【大頁記憶體】Oracle資料庫配置大頁記憶體
2021-08-19
記憶體Oracle資料庫
【記憶體資料庫】TimesTen
2018-04-28
記憶體資料庫
新書《記憶體資料管理》
2012-08-09
新書記憶體
Redis 記憶體優化神技，小記憶體儲存大資料
2022-07-13
Redis記憶體優化大資料
解決Apache長時間佔用記憶體大的問題，Apache 記憶體優化方法
2018-01-18
Apache記憶體優化
記憶體中的資料儲存
2019-10-03
記憶體
Python記憶體資料庫/引擎
2016-09-07
Python記憶體資料庫
構建個人記憶體資料庫
2009-10-29
記憶體資料庫
Aerospike 分散式記憶體資料庫筆記
2016-01-20
ROS分散式記憶體資料庫筆記
Oracle - 資料庫的記憶體結構
2018-09-17
Oracle資料庫記憶體
Oracle - 資料庫的記憶體調整
2018-09-17
Oracle資料庫記憶體
瀚高資料庫記憶體結構
2021-10-18
資料庫記憶體
資料型別、記憶體與拷貝
2016-10-13
資料型別記憶體
記憶體資料庫發展歷程
2014-11-14
記憶體資料庫
記憶體資料庫快取介紹
2011-05-01
記憶體資料庫快取
主要測試記憶體和資料庫
2010-08-19
記憶體資料庫
記憶體資料庫TimesTen介紹
2012-03-07
記憶體資料庫
Java記憶體區域（執行時資料區域）和記憶體模型（JMM）
2019-07-03
Java記憶體模型
共享記憶體段未釋放導致資料庫記憶體被耗盡
2011-12-15
記憶體資料庫
資源供給：記憶體和虛擬記憶體
2013-11-10
記憶體
Java記憶體區域與記憶體溢位異常 - 執行時資料區
2024-07-31
Java記憶體溢位
JVM執行時記憶體資料區域
2020-08-26
JVM記憶體
資料庫實現原理#6（共享記憶體）
2020-04-20
資料庫記憶體
南大通用極速記憶體資料庫
2021-07-20
記憶體資料庫
JS高階（2）—— 資料變數記憶體
2020-11-13
JS變數記憶體
記憶體資料的十六進位制Print
2016-09-26
記憶體
SQL Server 記憶體資料庫原理解析
2016-08-05
SQLServer記憶體資料庫
oracle資料庫記憶體分配（sga和pga）
2015-03-16
Oracle資料庫記憶體
AIX 下oracle 資料庫記憶體優化
2010-04-13
AIOracle資料庫記憶體優化
Oralce記憶體資料庫TimesTen簡介
2007-03-14
記憶體資料庫
記憶體資料庫有幾個人用過？
2009-04-29
記憶體資料庫
Redis記憶體——記憶體消耗(記憶體都去哪了？)
2021-05-20
Redis記憶體
記憶體_大頁記憶體
2016-05-24
記憶體