面向Apache Spark的Kotlin預覽版簡介

kotliner發表於2020-09-03

原文網址 : https://www.kotliner.cn/2020/09/%E9%9D%A2%E5%90%91apache-spark%E7%9A%84kotlin%E9%A2%84%E8%A7%88%E7%89%88%E7%AE%80%E4%BB%8B/

ApacheSparkKotlin

Apache Spark是用於大規模分散式資料處理的開源統一分析引擎。在過去的幾年中，已成為最受歡迎的大資料處理工具之一。它涵蓋了廣泛的任務型別——從資料批處理和簡單的ETL(提取/轉換/載入)到流和機器學習。

由於Kotlin與Java的互操作性，Kotlin開發者已可以透過Java API使用Apache Spark。但是如此一來，就無法充分發揮Kotlin的潛力，而且通常這讓編碼變得不夠流暢。

今天，我們很高興地分享Apache Spark的Kotlin API的第一個預覽版。這個專案在Kotlin和Apache Spark之間增加了相容層。允許你使用熟悉的語言特性(例如資料類和lambda表示式)編寫符合習慣的Kotlin程式碼。

Kotlin for Apache Spark還根據部分特性擴充套件了現有的API。

withSpark和withCached函式

withSpark是使用SparkSession的一種簡單而優雅的方法，它將自動為你在程式碼塊末尾呼叫spark.stop()。你可以向其傳遞執行Spark可能需要的引數，例如主位置，日誌級別或應用程式名稱。它還帶有一組方便的預設值，可在本地執行Spark。

這是計算行中字母出現次數的經典示例:

val logFile = "a/path/to/logFile.txt"
withSpark(master = "yarn", logLevel = SparkLogLevel.DEBUG){
    spark.read().textFile(logFile).withCached {
        val numAs = filter { it.contains("a") }.count()
        val numBs = filter { it.contains("b") }.count()
        println("Lines with a: $numAs, lines with b: $numBs")
    }
}

上述例子另一個有用的函式是withCached。在其他API中，如果要將計算分配到多個路徑中，但只計算一次，則可以呼叫’cache’方法。但是會很快變得難以跟蹤，你必須記住要取消持久化快取的資料。否則可能會佔用比預期更多的記憶體，甚至完全破壞記憶體。 withCached會為你跟蹤並持久化。

空安全

Kotlin for Spark在現有方法中新增了leftJoin、rightJoin和其他別名，這是從設計角度的空安全。

fun main() {

   data class Coordinate(val lon: Double, val lat: Double)
   data class City(val name: String, val coordinate: Coordinate)
   data class CityPopulation(val city: String, val population: Long)

   withSpark(appName = "Find biggest cities to visit") {
       val citiesWithCoordinates = dsOf(
               City("Moscow", Coordinate(37.6155600, 55.7522200)),
           // ...
       )

       val populations = dsOf(
               CityPopulation("Moscow", 11_503_501L),
               // ...
       )
       citiesWithCoordinates.rightJoin(populations, citiesWithCoordinates.col("name") <code>==</code> populations.col("city"))
               .filter { (_, citiesPopulation) ->
                   citiesPopulation.population > 15_000_000L
               }
               .map { (city, _) ->
                   // A city may potentially be null in this right join!!!
                   city?.coordinate
               }
               .filterNotNull()
               .show()
   }
}

注意上述示例中的city?.coordinate行。在這個右聯接中，城市可能為空。這會在其他JVM Spark API中引起NullPointerException，並且追溯問題的根源非常困難。 Kotlin for Apache Spark會為你處理null安全問題，你可以方便地過濾出null結果。

支援什麼

Kotlin for Apache Spark的初始版本支援Apache Spark 3.0，其核心針對Scala 2.12進行了編譯。

其API涵蓋了建立最適合批處理ETL的自包含Spark應用程式所需的所有方法。

Kotlin for Apache Spark入門

為了幫助你快速開始使用Kotlin for Apache Spark，我們準備了一份快速入門指南，可以幫助你配置環境，正確定義專案的依賴關係並執行第一個以Kotlin編寫的自包含Spark應用程式。

下一步

我們知道將現有的框架升級到較新的版本需要一段時間，Spark也不例外。這就是為什麼在下一個更新中，我們將新增對早期Spark版本的支援：2.4.2 – 2.4.6。

我們還在Kotlin Spark殼上進行工作，以便你可以以互動方式使用資料並享受探索性資料分析的樂趣。

目前，API並未涵蓋Spark Streaming和Spark MLlib，但我們將密切聽取你的反饋，並將在我們的路線圖中進行相應處理。

將來，我們希望Kotlin能以一等公民的身份加入Apache Spark的正式專案。我們相信，它可以為Kotlin和Spark社群增加價值。這就是為什麼我們提出了一個Spark專案改進建議：Kotlin對Apache Spark的支援。我們期待你的意見及討論。

嘗試面向Apache Spark的Kotlin和反饋你的想法！

Apache Spark 3.0 預覽版正式釋出，多項重大功能釋出
2020-02-01
ApacheSpark
spark 的簡介
2022-07-25
Spark
tomaztk/Spark-for-data-engineers：面向資料工程師的Apache Spark學習教程
2021-12-22
Spark工程師Apache
Apache簡介
2018-10-09
Apache
【Kotlin】select簡介
2024-12-08
Kotlin
Kotlin 1.1.6版本更新，新功能搶先預覽
2018-05-07
Kotlin
Apache Tomcat簡介
2020-08-02
ApacheTomcat
Apache Pinot 簡介
2024-06-18
Apache
apache flink 簡介
2022-07-16
Apache
微軟面向快速預覽版通道推送Win10 19H1快速預覽版18277系統更新
2018-11-08
微軟Win10
Kotlin Coroutine(協程)簡介
2019-04-15
Kotlin
Apache-Kafka簡介
2019-03-23
ApacheKafka
Apache Hudi使用簡介
2020-12-27
Apache
微軟面向快速預覽版通道釋出Win10 20H1 18895快速預覽更新
2019-05-13
微軟Win10
基於Kotlin 1.4.0-RC的Dokka預覽
2020-08-13
Kotlin
Spark GraphX簡介與教程
2021-12-29
Spark
spark簡單介紹（一）
2021-09-09
Spark
微軟面向2019 Win10更新五月版推送18362.86快速預覽版
2019-04-28
微軟Win10
Apache Avro & Avro Schema簡介
2020-07-15
ApacheVR
Apache Curator簡單介紹
2021-09-09
Apache
微軟面向win10 pc版用用推送預覽版更新：增加兩項新功能
2018-04-20
微軟Win10
微軟面向pc推送Win10 RS5快速預覽版17666
2018-05-10
微軟Win10
微軟面向HoloLens推送Win10 RS4預覽版17133更新
2018-04-04
微軟Win10
微軟開始面向慢速版通道釋出Win10版本2004預覽版19041.173
2020-04-10
微軟Win10
微軟面向pc使用者推送Windows 10 RS5快速預覽版17677
2018-05-25
微軟Windows
微軟面向pc使用者推送Windows 10 RS5快速預覽版17672
2018-05-17
微軟Windows
.NET 6 預覽版 7 釋出——最後一個預覽版
2021-08-11
Spark流教程：使用 Apache Spark 的Twitter情緒分析
2021-12-29
SparkApache
Apache Spark和Hive有用的功能
2019-01-08
ApacheSparkHive
微軟面向pc使用者推送Windows 10 RS5跳躍預覽版17655
2018-04-26
微軟Windows
微軟面向Insider使用者推送了最新的Win10 RS5慢速預覽版17738
2018-08-24
微軟IDEWin10
Apache Spark Day3
2020-10-30
ApacheSpark
微軟面向快速通道使用者推送Windows 10 RS5快速預覽版17713
2018-07-12
微軟Windows
微軟面向Slow和Fast通道使用者正式推送Win10 19037.1預覽版更新
2019-12-09
微軟ASTWin10
微軟面向開發者釋出Win10 20H1 SDK預覽版18894
2019-05-15
微軟Win10
Apache Kafka資料模型概念簡介 - Baeldung
2021-01-05
ApacheKafka模型
帶有Apache Spark的Lambda架構
2018-05-29
ApacheSpark架構
win10正式版和預覽版的區別_win10正式版和預覽版圖文詳解
2020-06-02
Win10

面向Apache Spark的Kotlin預覽版簡介

withSpark和withCached函式

空安全

支援什麼

Kotlin for Apache Spark入門

下一步

相關文章