Spark 互動式處理上百 TB 資料

fzr發表於2016-06-28

Apache Spark在記憶體資料處理領域有很多創新。有了這個框架，你可以上傳資料到叢集記憶體，並在互動模式下以非常快的速度處理這些資料（互動模式是Spark另一個重要特性）。2014年Databricks宣佈 Apache Spark能在23分鐘內完成100T資料的排序。

這裡有一個有趣的問題——你可以在叢集中以互動方式處理的資料量的上限是什麼？如果你的叢集中有100T資料呢？你可能驚訝記憶體竟然如此之快。直覺告訴你可以記憶體可以互動式處理100T的輸入資料或者至少能處理一半的規模。然而，像往常一樣，在分散式系統的世界，我們的直覺是錯誤的。

Spark 互動式處理上百 TB 資料
互動式Apache Spark

1. 響應時間

對於一個簡單的資料處理場景和一個比較複雜的，各自的響應時間是什麼？那我們還是在一個互動模式嗎？我們應該這樣思考，但是很不幸，我們沒有。我看到的是，在實際的場景中，一個有8T資料的“where sum(), count()”語句的簡單場景的響應時間是20-40秒。對於更復雜更實際的情形（有幾個“group by”和幾個“join”），響應時間是3-5分鐘。這絕不是我說的互動模式！

在日常生活中，我只會在響應時間比較關鍵的情形下作分析。對我來說，3到10秒之後我就會放棄，好吧也許會到15秒之後我仍然認為這是互動模式。除此之外，我會認為它是批處理模式。和MapReduce之類的磁碟處理相比，幾秒鐘或是3-5分鐘替代了15-60分鐘可能看起來比較不可置信。然而，這不是互動式的。

2. 互動在哪裡結束？

互動模式下幾秒延遲內我能處理的最大記憶體數量限制在1TB以內。儘管這樣，效率還算不錯的。然而，超出了1TB，我發現響應時間被極度延長了。

我猜測是為了提高效率（5-10TB只有幾秒鐘延遲），我們需要更新硬體（我想嘗試一個擁有非常強大的EC2機器，250GB的RAM儲存的叢集），以及調整軟體設定（Apache Spark驅動設定，記憶體列格式，可能還有YARN設定）。

即使軟硬體都更新了，我很清楚，互動模式的限制也不會接近100TB。

3. 先把資料讀入記憶體

正如你回想起的一樣，要記住你每迭代一次資料處理都會花費數秒甚至數分鐘。然而，這並不是故事的結局。如果你正用Ad Hoc分析或者是建立機器學習模型，你的初始資料集很大可能都存放在一個HDFS儲存叢集中。這意味著在記憶體迭代操作之前，你應該先從耗時較長的磁碟中讀入資料。按往常，效能通常依賴於硬體和軟體設定。更可能的是，讀一個5-8TB的資料集耗時在15-30分鐘之間。即使是1TB資料也會消耗5分鐘左右。

總結

在接觸Apache Spark記憶體處理之前，特別是資料集超過1TB時，好好計劃分析場景並評估響應時間還是很有價值的。

請提供關於你以互動方式處理的資料量的上限的相關經驗反饋。

伺服器怎麼處理上傳大量資料
2022-02-26
伺服器
資料互動
2019-03-20
處理上百萬條的資料庫如何提高處理查詢速度
2012-04-08
資料庫
一行程式碼，Pandas秒變分散式，快速處理TB級資料
2018-03-07
行程分散式
Scapy 2.4.0 釋出，基於 Python 的互動式資料包處理庫
2018-03-28
Python
互動式資料視覺化的優勢
2022-03-31
視覺化
為大資料帶來互動式的BI
2017-05-31
大資料
spark處理json資料Demo
2019-02-26
SparkJSON
WPF和js互動 WebBrowser資料互動
2014-06-17
JSWeb
Flask資料互動
2024-04-22
Flask
當oracle的資料量達到幾百TB的時候，rman怎麼處理？
2007-12-24
Oracle
2.3.2 關於使用互動式DBCA建立資料庫
2020-02-28
資料庫
資料互動筆記
2019-03-16
筆記
Android FlatBuffers資料互動
2018-11-27
Android
Ajax 資料非同步互動
2018-01-16
非同步
百度人工智慧互動設計院：步步「動」心——人-機器人漸進式互動研究
2018-09-04
人工智慧機器人
淺析mysql互動式連線&非互動式連線
2021-09-09
MySql
tb店鋪所有商品資料介面
2024-01-14
使用Spark和Cassandra進行資料處理（一）
2013-10-20
Spark
互動式指令碼
2015-11-18
指令碼
2.3.3 關於使用非互動式/靜默DBCA建立資料庫
2020-02-28
資料庫
前後端資料交換互動
2020-08-21
後端
Hive 與 ElasticSearch 的資料互動
2019-01-27
HiveElasticsearch
Android與WebView資料互動
2018-07-24
AndroidWebView
SSH前後端資料互動
2016-12-18
後端
Android ReactNative資料互動
2018-04-21
AndroidReact
Spark基礎：使用維基百科資料集來用Spark進行原型實驗
2016-07-07
Spark原型
Spark大資料處理框架入門(單機版)
2021-05-21
Spark大資料框架
Apache Spark：大資料處理統一引擎
2016-12-05
ApacheSpark大資料
互動投影+沉浸式互動投影綜合解決方案
2021-05-06
降本增效百TB級Redis自動化運維體系建設
2024-03-05
Redis運維
python與mysql資料庫互動
2020-01-08
PythonMySql資料庫
前後端資料互動利器--Protobuf
2021-08-01
後端
Beego框架學習--（核心：資料互動）
2020-12-03
Go框架
所有權背後的資料互動
2022-02-28
ActionScript 學習筆記(資料互動)
2009-09-18
筆記
SqlSugar與資料庫互動官網
2024-04-30
SqlSugar資料庫
Spark叢集資料處理速度慢（資料本地化問題）
2018-01-18
Spark

Spark 互動式處理上百 TB 資料

1. 響應時間

2. 互動在哪裡結束？

3. 先把資料讀入記憶體

總結

相關文章