Apache Spark 3.0 預覽版正式釋出,多項重大功能釋出
如果想及時瞭解Spark、Hadoop或者Hbase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop
如果想及時瞭解Spark、Hadoop或者HBase相關的文章,歡迎關注微信公眾號:iteblog_hadoop
目前基於 Batch 模式的 Spark Streaming/Structed Streaming 能夠滿足企業大部分的需求,真正需要非常實時計算的應用還是很少的,所以 Continuous Processing 模組還處於試驗階段,還不急著畢業;
數磚應該在大量投人開發 Delta Lake 相關的東西,這個能夠企業帶來收入,目前這個才是他們的重點,所以自然開發 Streaming 的投入少了。
所謂的動態分割槽裁剪就是基於執行時(run time)推斷出來的資訊來進一步進行分割槽裁剪。舉個例子,我們有如下的查詢:
SELECT * FROM dim_iteblog JOIN fact_iteblog ON (dim_iteblog.partcol = fact_iteblog.partcol) WHERE dim_iteblog.othercol > 10 |
假設 dim_iteblog 表的 dim_iteblog.othercol > 10 過濾出來的資料比較少,但是由於之前版本的 Spark 無法進行動態計算代價,所以可能會導致 fact_iteblog 表掃描出大量無效的資料。有了動態分割槽裁減,可以在執行的時候過濾掉 fact_iteblog 表無用的資料。經過這個優化,查詢掃描的資料大大減少,效能提升了 33 倍。
這個特性對應的 ISSUE 可以參見 SPARK-11150 和 SPARK-28888。
自適應查詢執行(Adaptive Query Execution)
而 Apache Spark 3.0 的 Adaptive Query Execution 是基於 SPARK-9850 的思想而實現的,具體參見 SPARK-23128。SPARK-23128 的目標是實現一個靈活的框架以在 Spark SQL 中執行自適應執行,並支援在執行時更改 reducer 的數量。新的實現解決了前面討論的所有限制,其他功能(如更改 join 策略和處理傾斜 join)將作為單獨的功能實現,並作為外掛在後面版本提供。
加速器感知排程(Accelerator-aware Scheduling)
如今大資料和機器學習已經有了很大的結合,在機器學習裡面,因為計算迭代的時間可能會很長,開發人員一般會選擇使用 GPU、FPGA 或 TPU 來加速計算。在 Apache Hadoop 3.1 版本里面已經開始內建原生支援 GPU 和 FPGA 了。作為通用計算引擎的 Spark 肯定也不甘落後,來自 Databricks、NVIDIA、Google 以及阿里巴巴的工程師們正在為 Apache Spark 新增原生的 GPU 排程支援,該方案填補了 Spark 在 GPU 資源的任務排程方面的空白,有機地融合了大資料處理和 AI 應用,擴充套件了 Spark 在深度學習、訊號處理和各大資料應用的應用場景。這項工作的 issue 可以在 SPARK-24615 裡面檢視,相關的 SPIP(Spark Project Improvement Proposals) 文件可以參見 SPIP: Accelerator-aware scheduling
如果想及時瞭解Spark、Hadoop或者HBase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop
目前 Apache Spark 支援的資源管理器 YARN 和 Kubernetes 已經支援了 GPU。為了讓 Spark 也支援 GPUs,在技術層面上需要做出兩個主要改變:
在 cluster manager 層面上,需要升級 cluster managers 來支援 GPU。並且給使用者提供相關 API,使得使用者可以控制 GPU 資源的使用和分配。
在 Spark 內部,需要在 scheduler 層面做出修改,使得 scheduler 可以在使用者 task 請求中識別 GPU 的需求,然後根據 executor 上的 GPU 供給來完成分配。
Apache Spark DataSource V2
Data Source API 定義如何從儲存系統進行讀寫的相關 API 介面,比如 Hadoop 的 InputFormat/OutputFormat,Hive 的 Serde 等。這些 API 非常適合使用者在 Spark 中使用 RDD 程式設計的時候使用。使用這些 API 進行程式設計雖然能夠解決我們的問題,但是對使用者來說使用成本還是挺高的,而且 Spark 也不能對其進行優化。為了解決這些問題,Spark 1.3 版本開始引入了 Data Source API V1,通過這個 API 我們可以很方便的讀取各種來源的資料,而且 Spark 使用 SQL 元件的一些優化引擎對資料來源的讀取進行優化,比如列裁剪、過濾下推等等。
如果想及時瞭解Spark、Hadoop或者HBase相關的文章,歡迎關注微信公眾號:iteblog_hadoop
部分介面依賴 SQLContext 和 DataFrame
擴充套件能力有限,難以下推其他運算元
缺乏對列式儲存讀取的支援
缺乏分割槽和排序資訊
寫操作不支援事務
不支援流處理
文章的介紹。
更好的 ANSI SQL 相容
PostgreSQL 是最先進的開源資料庫之一,其支援 SQL:2011 的大部分主要特性,完全符合 SQL:2011 要求的 179 個功能中,PostgreSQL 至少符合 160 個。Spark 社群目前專門開了一個 ISSUE SPARK-27764 來解決 Spark SQL 和 PostgreSQL 之間的差異,包括功能特性補齊、Bug 修改等。功能補齊包括了支援 ANSI SQL 的一些函式、區分 SQL 保留關鍵字以及內建函式等。這個 ISSUE 下面對應了 231 個子 ISSUE,如果這部分的 ISSUE 都解決了,那麼 Spark SQL 和 PostgreSQL 或者 ANSI SQL:2011 之間的差異更小了。
SparkR 向量化讀寫
Spark 是從 1.4 版本開始支援 R 語言的,但是那時候 Spark 和 R 進行互動的架構圖如下:
如果想及時瞭解Spark、Hadoop或者HBase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop
每當我們使用 R 語言和 Spark 叢集進行互動,需要經過 JVM ,這也就無法避免資料的序列化和反序列化操作,這在資料量很大的情況下效能是十分低下的!
而且 Apache Spark 已經在許多操作中進行了向量化優化(vectorization optimization),例如,內部列式格式(columnar format)、Parquet/ORC 向量化讀取、Pandas UDFs 等。向量化可以大大提高效能。SparkR 向量化允許使用者按原樣使用現有程式碼,但是當他們執行 R 本地函式或將 Spark DataFrame 與 R DataFrame 互相轉換時,可以將效能提高大約數千倍。這項工作可以看下 SPARK-26759。新的架構如下:
如果想及時瞭解Spark、Hadoop或者HBase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop
其他
Spark on K8S:Spark 對 Kubernetes 的支援是從2.3版本開始的,Spark 2.4 得到提升,Spark 3.0 將會加入 Kerberos 以及資源動態分配的支援。
Remote Shuffle Service:當前的 Shuffle 有很多問題,比如彈性差、對 NodeManager 有很大影響,不適應雲環境。為了解決上面問題,將會引入 Remote Shuffle Service,具體參見 SPARK-25299
支援 JDK 11:參見 SPARK-24417,之所以直接選擇 JDK 11 是因為 JDK 8 即將達到 EOL(end of life),而 JDK9 和 JDK10 已經是 EOL,所以社群就跳過 JDK9 和 JDK10 而直接支援 JDK11。不過 Spark 3.0 預覽版預設還是使用 JDK 1.8;
移除對 Scala 2.11 的支援,預設支援 Scala 2.12,具體參見 SPARK-26132
支援 Hadoop 3.2,具體參見 SPARK-23710,Hadoop 3.0 已經發布了2年了(Apache Hadoop 3.0.0-beta1 正式釋出,下一個版本(GA)即可線上上使用),所以支援 Hadoop 3.0 也是自然的,不過 Spark 3.0 預覽版預設還是使用 Hadoop 2.7.4。
附:Spark 3.0 重要 ISSUE
SPARK-11215 Multiple columns support added to various Transformers: StringIndexer
SPARK-11150 Implement Dynamic Partition Pruning
SPARK-13677 Support Tree-Based Feature Transformation
SPARK-16692 Add MultilabelClassificationEvaluator
SPARK-19591 Add sample weights to decision trees
SPARK-19712 Pushing Left Semi and Left Anti joins through Project, Aggregate, Window, Union etc.
SPARK-19827 R API for Power Iteration Clustering
SPARK-20286 Improve logic for timing out executors in dynamic allocation
SPARK-20636 Eliminate unnecessary shuffle with adjacent Window expressions
SPARK-22148 Acquire new executors to avoid hang because of blacklisting
SPARK-22796 Multiple columns support added to various Transformers: PySpark QuantileDiscretizer
SPARK-23128 A new approach to do adaptive execution in Spark SQL
SPARK-23155 Apply custom log URL pattern for executor log URLs in SHS
SPARK-23539 Add support for Kafka headers
SPARK-23674 Add Spark ML Listener for Tracking ML Pipeline Status
SPARK-23710 Upgrade the built-in Hive to 2.3.5 for hadoop-3.2
SPARK-24333 Add fit with validation set to Gradient Boosted Trees: Python API
SPARK-24417 Build and Run Spark on JDK11
SPARK-24615 Accelerator-aware task scheduling for Spark
SPARK-24920 Allow sharing Netty's memory pool allocators
SPARK-25250 Fix race condition with tasks running when new attempt for same stage is created leads to other task in the next attempt running on the same partition id retry multiple times
SPARK-25341 Support rolling back a shuffle map stage and re-generate the shuffle files
SPARK-25348 Data source for binary files
SPARK-25390 data source V2 API refactoring
SPARK-25501 Add Kafka delegation token support
SPARK-25603 Generalize Nested Column Pruning
SPARK-26132 Remove support for Scala 2.11 in Spark 3.0.0
SPARK-26215 define reserved keywords after SQL standard
SPARK-26412 Allow Pandas UDF to take an iterator of pd.DataFrames
SPARK-26651 Use Proleptic Gregorian calendar
SPARK-26759 Arrow optimization in SparkR's interoperability
SPARK-26848 Introduce new option to Kafka source: offset by timestamp (starting/ending)
SPARK-27064 create StreamingWrite at the beginning of streaming execution
SPARK-27119 Do not infer schema when reading Hive serde table with native data source
SPARK-27225 Implement join strategy hints
SPARK-27240 Use pandas DataFrame for struct type argument in Scalar Pandas UDF
SPARK-27338 Fix deadlock between TaskMemoryManager and UnsafeExternalSorter$SpillableIterator
SPARK-27396 Public APIs for extended Columnar Processing Support
SPARK-27463 Support Dataframe Cogroup via Pandas UDFs
SPARK-27589 Re-implement file sources with data source V2 API
SPARK-27677 Disk-persisted RDD blocks served by shuffle service, and ignored for Dynamic Allocation
SPARK-27699 Partially push down disjunctive predicated in Parquet/ORC
SPARK-27763 Port test cases from PostgreSQL to Spark SQL
SPARK-27884 Deprecate Python 2 support
SPARK-27921 Convert applicable *.sql tests into UDF integrated test base
SPARK-27963 Allow dynamic allocation without an external shuffle service
SPARK-28177 Adjust post shuffle partition number in adaptive execution
SPARK-28199 Move Trigger implementations to Triggers.scala and avoid exposing these to the end users
SPARK-28372 Document Spark WEB UI
SPARK-28399 RobustScaler feature transformer
SPARK-28426 Metadata Handling in Thrift Server
SPARK-28588 Build a SQL reference doc
SPARK-28608 Improve test coverage of ThriftServer
SPARK-28753 Dynamically reuse subqueries in AQE
SPARK-28855 Remove outdated Experimental, Evolving annotations
SPARK-29345 Add an API that allows a user to define and observe arbitrary metrics on streaming queries
SPARK-25908 SPARK-28980 Remove deprecated items since < = 2.2.0
新福利:
從11月01日開始至12月06日截止,一共五週時間,每週五我會從公眾號底部留言+轉發+在看綜合最多的讀者中抽取一名讀者,免費包郵送實體新書《Flink入門與實戰》,留言互動起來吧~
上週獲獎名單:佐佑
相關文章
- 正式釋出 | .NET 7 預覽版 2
- 棄用Java 8,Apache Kafka釋出3.0正式版JavaApacheKafka
- Apache Flink 1.6.0 正式釋出,涵蓋多項重要更新Apache
- 特性速覽| Apache Hudi 0.5.3版本正式釋出Apache
- GitLab 中文版正式釋出 17.5,修復多個漏洞,釋出多個功能Gitlab
- Apache SeaTunnel 2.3.8版本正式釋出!Apache
- Spring Boot 3.0正式釋出Spring Boot
- IDEA 2024.2 正式釋出,速覽新功能!Idea
- React Suite v3.0 正式版釋出ReactUI
- Apache Flink 1.16 正式釋出Apache
- .NET 9 預覽版6釋出
- .NET 9 預覽版 5 釋出
- .NET 8 預覽版 1 釋出!
- .NET Aspire 預覽版 6 釋出
- .NET 9 預覽版 3 釋出
- .NET ASPIRE 預覽版 7 釋出
- .NET 6 預覽版 5 釋出
- 阿里雲資料管理DMS企業版釋出年度重大更新 多項功能全面升級阿里
- Apache DolphinScheduler 3.2.2 版本正式釋出!Apache
- Apache Doris 2.0.4 版本正式釋出Apache
- Apache Doris 2.0.5 版本正式釋出Apache
- Apache Doris 2.0.5 版本正式釋出!Apache
- Apache Doris 2.0.3 版本正式釋出Apache
- Apache APISIX Ingress 1.6 正式釋出!ApacheAPI
- Apache APISIX 3.1.0 版本正式釋出ApacheAPI
- 重磅!Apache Kafka 3.3 正式釋出!ApacheKafka
- 重要·Flutter 首個預覽版 釋出Flutter
- 重要·Flutter首個預覽版釋出Flutter
- Nacos 2.3.2 正式釋出,修復重大 bug!
- Spring Boot 2.4 正式釋出,重大調整!!!Spring Boot
- 蘋果釋出iOS 14.4正式版,官方釋出升級注意事項蘋果iOS
- .NET 6 預覽版 7 釋出——最後一個預覽版
- Apache Doris 1.2.2 Release 版本正式釋出Apache
- Apache HugeGraph1.0.0 版本正式釋出!Apache
- .NET Aspire預覽5版本 釋出
- 重磅升級!TDengine3.0 正式釋出
- 更強大的遠端開發,Remote Tunnels 正式釋出預覽版!REM
- HarmonyOS 3 開發者預覽版釋出;Chrome 95 釋出;MySQL 8.0.27 GA 釋出 | 思否週刊ChromeMySql