Apache Spark 3.0 預覽版正式釋出，多項重大功能釋出

過往記憶發表於2020-02-01

原文網址 : https://blog.csdn.net/w397090770/article/details/102982726

今天早上 06:53（2019年11月08日 06:53) 數磚的 Xingbo Jiang 大佬給社群發了一封郵件，宣佈 Apache Spark 3.0 預覽版正式釋出，這個版本主要是為了對即將釋出的 Apache Spark 3.0 版本進行大規模社群測試。無論是從 API 還是從功能上來說，這個預覽版都不是一個穩定的版本，它的主要目的是為了讓社群提前嘗試 Apache Spark 3.0 的新特性。如果大家想測試這個版本，可以到這裡下載。https://archive.apache.org/dist/spark/spark-3.0.0-preview/

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者Hbase相關的文章，歡迎關注微信公共帳號：iteblog_hadoop

Apache Spark 3.0 增加了很多令人興奮的新特性，包括動態分割槽修剪（Dynamic Partition Pruning）、自適應查詢執行（Adaptive Query Execution）、加速器感知排程（Accelerator-aware Scheduling）、支援 Catalog 的資料來源API（Data Source API with Catalog Supports）、SparkR 中的向量化（Vectorization in SparkR）、支援 Hadoop 3/JDK 11/Scala 2.12 等等。Spark 3.0.0-preview 中主要特性和變化的完整列表請參閱這裡。下面我將帶領大家解析一些比較重要的新特性。

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

PS：仔細同學可以看出，Spark 3.0 好像沒多少 Streaming/Structed Streaming 相關的 ISSUE，這可能有幾個原因：

目前基於 Batch 模式的 Spark Streaming/Structed Streaming 能夠滿足企業大部分的需求，真正需要非常實時計算的應用還是很少的，所以 Continuous Processing 模組還處於試驗階段，還不急著畢業；
數磚應該在大量投人開發 Delta Lake 相關的東西，這個能夠企業帶來收入，目前這個才是他們的重點，所以自然開發 Streaming 的投入少了。

動態分割槽修剪（Dynamic Partition Pruning）

所謂的動態分割槽裁剪就是基於執行時（run time）推斷出來的資訊來進一步進行分割槽裁剪。舉個例子，我們有如下的查詢：

SELECT * FROM dim_iteblog
JOIN fact_iteblog
ON (dim_iteblog.partcol = fact_iteblog.partcol)
WHERE dim_iteblog.othercol > 10

假設 dim_iteblog 表的 dim_iteblog.othercol > 10 過濾出來的資料比較少，但是由於之前版本的 Spark 無法進行動態計算代價，所以可能會導致 fact_iteblog 表掃描出大量無效的資料。有了動態分割槽裁減，可以在執行的時候過濾掉 fact_iteblog 表無用的資料。經過這個優化，查詢掃描的資料大大減少，效能提升了 33 倍。

這個特性對應的 ISSUE 可以參見 SPARK-11150 和 SPARK-28888。

自適應查詢執行（Adaptive Query Execution）

自適應查詢執行（又稱 Adaptive Query Optimisation 或者 Adaptive Optimisation）是對查詢執行計劃的優化，允許 Spark Planner 在執行時執行可選的執行計劃，這些計劃將基於執行時統計資料進行優化。

早在2015年，Spark 社群就提出了自適應執行的基本想法，在 Spark 的 DAGScheduler 中增加了提交單個 map stage 的介面，並且在實現執行時調整 shuffle partition 數量上做了嘗試。但目前該實現有一定的侷限性，在某些場景下會引入更多的 shuffle，即更多的 stage，對於三表在同一個 stage 中做 join 等情況也無法很好的處理；而且使用當前框架很難靈活地在自適應執行中實現其他功能，例如更改執行計劃或在執行時處理傾斜的 join。所以該功能一直處於實驗階段，配置引數也沒有在官方文件中提及。這個想法主要來自英特爾以及百度的大牛，具體參見 SPARK-9850。

而 Apache Spark 3.0 的 Adaptive Query Execution 是基於 SPARK-9850 的思想而實現的，具體參見 SPARK-23128。SPARK-23128 的目標是實現一個靈活的框架以在 Spark SQL 中執行自適應執行，並支援在執行時更改 reducer 的數量。新的實現解決了前面討論的所有限制，其他功能（如更改 join 策略和處理傾斜 join）將作為單獨的功能實現，並作為外掛在後面版本提供。

加速器感知排程（Accelerator-aware Scheduling）

如今大資料和機器學習已經有了很大的結合，在機器學習裡面，因為計算迭代的時間可能會很長，開發人員一般會選擇使用 GPU、FPGA 或 TPU 來加速計算。在 Apache Hadoop 3.1 版本里面已經開始內建原生支援 GPU 和 FPGA 了。作為通用計算引擎的 Spark 肯定也不甘落後，來自 Databricks、NVIDIA、Google 以及阿里巴巴的工程師們正在為 Apache Spark 新增原生的 GPU 排程支援，該方案填補了 Spark 在 GPU 資源的任務排程方面的空白，有機地融合了大資料處理和 AI 應用，擴充套件了 Spark 在深度學習、訊號處理和各大資料應用的應用場景。這項工作的 issue 可以在 SPARK-24615 裡面檢視，相關的 SPIP（Spark Project Improvement Proposals）文件可以參見 SPIP: Accelerator-aware scheduling

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公共帳號：iteblog_hadoop

目前 Apache Spark 支援的資源管理器 YARN 和 Kubernetes 已經支援了 GPU。為了讓 Spark 也支援 GPUs，在技術層面上需要做出兩個主要改變：

在 cluster manager 層面上，需要升級 cluster managers 來支援 GPU。並且給使用者提供相關 API，使得使用者可以控制 GPU 資源的使用和分配。
在 Spark 內部，需要在 scheduler 層面做出修改，使得 scheduler 可以在使用者 task 請求中識別 GPU 的需求，然後根據 executor 上的 GPU 供給來完成分配。

因為讓 Apache Spark 支援 GPU 是一個比較大的特性，所以專案分為了幾個階段。在 Apache Spark 3.0 版本，將支援在 standalone、 YARN 以及 Kubernetes 資源管理器下支援 GPU，並且對現有正常的作業基本沒影響。對於 TPU 的支援、Mesos 資源管理器中 GPU 的支援、以及 Windows 平臺的 GPU 支援將不是這個版本的目標。而且對於一張 GPU 卡內的細粒度排程也不會在這個版本支援；Apache Spark 3.0 版本將把一張 GPU 卡和其記憶體作為不可分割的單元。文章。

Apache Spark DataSource V2

Data Source API 定義如何從儲存系統進行讀寫的相關 API 介面，比如 Hadoop 的 InputFormat/OutputFormat，Hive 的 Serde 等。這些 API 非常適合使用者在 Spark 中使用 RDD 程式設計的時候使用。使用這些 API 進行程式設計雖然能夠解決我們的問題，但是對使用者來說使用成本還是挺高的，而且 Spark 也不能對其進行優化。為了解決這些問題，Spark 1.3 版本開始引入了 Data Source API V1，通過這個 API 我們可以很方便的讀取各種來源的資料，而且 Spark 使用 SQL 元件的一些優化引擎對資料來源的讀取進行優化，比如列裁剪、過濾下推等等。

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公眾號：iteblog_hadoop

Data Source API V1 為我們抽象了一系列的介面，使用這些介面可以實現大部分的場景。但是隨著使用的使用者增多，逐漸顯現出一些問題：

部分介面依賴 SQLContext 和 DataFrame
擴充套件能力有限，難以下推其他運算元
缺乏對列式儲存讀取的支援
缺乏分割槽和排序資訊
寫操作不支援事務
不支援流處理

為了解決 Data Source V1 的一些問題，從 Apache Spark 2.3.0 版本開始，社群引入了 Data Source API V2，在保留原有的功能之外，還解決了 Data Source API V1 存在的一些問題，比如不再依賴上層 API，擴充套件能力增強。Data Source API V2 對應的 ISSUE 可以參見 SPARK-15689。雖然這個功能在 Apache Spark 2.x 版本就出現了，但是不是很穩定，所以社群對 Spark DataSource API V2 的穩定性工作以及新功能分別開了兩個 ISSUE：SPARK-25186 以及 SPARK-22386。Spark DataSource API V2 最終穩定版以及新功能將會隨著年底和 Apache Spark 3.0.0 版本一起釋出，其也算是 Apache Spark 3.0.0 版本的一大新功能。

文章的介紹。

更好的 ANSI SQL 相容

PostgreSQL 是最先進的開源資料庫之一，其支援 SQL:2011 的大部分主要特性，完全符合 SQL:2011 要求的 179 個功能中，PostgreSQL 至少符合 160 個。Spark 社群目前專門開了一個 ISSUE SPARK-27764 來解決 Spark SQL 和 PostgreSQL 之間的差異，包括功能特性補齊、Bug 修改等。功能補齊包括了支援 ANSI SQL 的一些函式、區分 SQL 保留關鍵字以及內建函式等。這個 ISSUE 下面對應了 231 個子 ISSUE，如果這部分的 ISSUE 都解決了，那麼 Spark SQL 和 PostgreSQL 或者 ANSI SQL:2011 之間的差異更小了。

SparkR 向量化讀寫

Spark 是從 1.4 版本開始支援 R 語言的，但是那時候 Spark 和 R 進行互動的架構圖如下：

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公共帳號：iteblog_hadoop

每當我們使用 R 語言和 Spark 叢集進行互動，需要經過 JVM ，這也就無法避免資料的序列化和反序列化操作，這在資料量很大的情況下效能是十分低下的！

而且 Apache Spark 已經在許多操作中進行了向量化優化（vectorization optimization），例如，內部列式格式（columnar format）、Parquet/ORC 向量化讀取、Pandas UDFs 等。向量化可以大大提高效能。SparkR 向量化允許使用者按原樣使用現有程式碼，但是當他們執行 R 本地函式或將 Spark DataFrame 與 R DataFrame 互相轉換時，可以將效能提高大約數千倍。這項工作可以看下 SPARK-26759。新的架構如下:

640?wx_fmt=png 如果想及時瞭解Spark、Hadoop或者HBase相關的文章，歡迎關注微信公共帳號：iteblog_hadoop

可以看出，SparkR 向量化是利用 Apache Arrow，其使得系統之間資料的互動變得很高效，而且避免了資料的序列化和反序列化的消耗，所以採用了這個之後，SparkR 和 Spark 互動的效能得到極大提升。

其他

Spark on K8S：Spark 對 Kubernetes 的支援是從2.3版本開始的，Spark 2.4 得到提升，Spark 3.0 將會加入 Kerberos 以及資源動態分配的支援。
Remote Shuffle Service：當前的 Shuffle 有很多問題，比如彈性差、對 NodeManager 有很大影響，不適應雲環境。為了解決上面問題，將會引入 Remote Shuffle Service，具體參見 SPARK-25299
支援 JDK 11：參見 SPARK-24417，之所以直接選擇 JDK 11 是因為 JDK 8 即將達到 EOL（end of life），而 JDK9 和 JDK10 已經是 EOL，所以社群就跳過 JDK9 和 JDK10 而直接支援 JDK11。不過 Spark 3.0 預覽版預設還是使用 JDK 1.8；
移除對 Scala 2.11 的支援，預設支援 Scala 2.12，具體參見 SPARK-26132
支援 Hadoop 3.2，具體參見 SPARK-23710，Hadoop 3.0 已經發布了2年了（Apache Hadoop 3.0.0-beta1 正式釋出，下一個版本(GA)即可線上上使用），所以支援 Hadoop 3.0 也是自然的，不過 Spark 3.0 預覽版預設還是使用 Hadoop 2.7.4。

附：Spark 3.0 重要 ISSUE

SPARK-11215 Multiple columns support added to various Transformers: StringIndexer
SPARK-11150 Implement Dynamic Partition Pruning
SPARK-13677 Support Tree-Based Feature Transformation
SPARK-16692 Add MultilabelClassificationEvaluator
SPARK-19591 Add sample weights to decision trees
SPARK-19712 Pushing Left Semi and Left Anti joins through Project, Aggregate, Window, Union etc.
SPARK-19827 R API for Power Iteration Clustering
SPARK-20286 Improve logic for timing out executors in dynamic allocation
SPARK-20636 Eliminate unnecessary shuffle with adjacent Window expressions
SPARK-22148 Acquire new executors to avoid hang because of blacklisting
SPARK-22796 Multiple columns support added to various Transformers: PySpark QuantileDiscretizer
SPARK-23128 A new approach to do adaptive execution in Spark SQL
SPARK-23155 Apply custom log URL pattern for executor log URLs in SHS
SPARK-23539 Add support for Kafka headers
SPARK-23674 Add Spark ML Listener for Tracking ML Pipeline Status
SPARK-23710 Upgrade the built-in Hive to 2.3.5 for hadoop-3.2
SPARK-24333 Add fit with validation set to Gradient Boosted Trees: Python API
SPARK-24417 Build and Run Spark on JDK11
SPARK-24615 Accelerator-aware task scheduling for Spark
SPARK-24920 Allow sharing Netty's memory pool allocators
SPARK-25250 Fix race condition with tasks running when new attempt for same stage is created leads to other task in the next attempt running on the same partition id retry multiple times
SPARK-25341 Support rolling back a shuffle map stage and re-generate the shuffle files
SPARK-25348 Data source for binary files
SPARK-25390 data source V2 API refactoring
SPARK-25501 Add Kafka delegation token support
SPARK-25603 Generalize Nested Column Pruning
SPARK-26132 Remove support for Scala 2.11 in Spark 3.0.0
SPARK-26215 define reserved keywords after SQL standard
SPARK-26412 Allow Pandas UDF to take an iterator of pd.DataFrames
SPARK-26651 Use Proleptic Gregorian calendar
SPARK-26759 Arrow optimization in SparkR's interoperability
SPARK-26848 Introduce new option to Kafka source: offset by timestamp (starting/ending)
SPARK-27064 create StreamingWrite at the beginning of streaming execution
SPARK-27119 Do not infer schema when reading Hive serde table with native data source
SPARK-27225 Implement join strategy hints
SPARK-27240 Use pandas DataFrame for struct type argument in Scalar Pandas UDF
SPARK-27338 Fix deadlock between TaskMemoryManager and UnsafeExternalSorter$SpillableIterator
SPARK-27396 Public APIs for extended Columnar Processing Support
SPARK-27463 Support Dataframe Cogroup via Pandas UDFs
SPARK-27589 Re-implement file sources with data source V2 API
SPARK-27677 Disk-persisted RDD blocks served by shuffle service, and ignored for Dynamic Allocation
SPARK-27699 Partially push down disjunctive predicated in Parquet/ORC
SPARK-27763 Port test cases from PostgreSQL to Spark SQL
SPARK-27884 Deprecate Python 2 support
SPARK-27921 Convert applicable *.sql tests into UDF integrated test base
SPARK-27963 Allow dynamic allocation without an external shuffle service
SPARK-28177 Adjust post shuffle partition number in adaptive execution
SPARK-28199 Move Trigger implementations to Triggers.scala and avoid exposing these to the end users
SPARK-28372 Document Spark WEB UI
SPARK-28399 RobustScaler feature transformer
SPARK-28426 Metadata Handling in Thrift Server
SPARK-28588 Build a SQL reference doc
SPARK-28608 Improve test coverage of ThriftServer
SPARK-28753 Dynamically reuse subqueries in AQE
SPARK-28855 Remove outdated Experimental, Evolving annotations
SPARK-29345 Add an API that allows a user to define and observe arbitrary metrics on streaming queries
SPARK-25908 SPARK-28980 Remove deprecated items since < = 2.2.0

新福利:

從11月01日開始至12月06日截止，一共五週時間，每週五我會從公眾號底部留言+轉發+在看綜合最多的讀者中抽取一名讀者，免費包郵送實體新書《Flink入門與實戰》，留言互動起來吧~

上週獲獎名單：佐佑 640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=jpeg

Apache Spark 3.0 預覽版正式釋出，多項重大功能釋出

自適應查詢執行（Adaptive Query Execution）

加速器感知排程（Accelerator-aware Scheduling）

Apache Spark DataSource V2

更好的 ANSI SQL 相容

SparkR 向量化讀寫

其他

附：Spark 3.0 重要 ISSUE

相關文章