SparkSQL /DataFrame /Spark RDD誰快？

凝望遠處的天鵝發表於2020-08-15

原文網址 : https://www.cnblogs.com/henrytee/p/13509802.html

SparkSQL

如題所示，SparkSQL /DataFrame /Spark RDD誰快？

按照官方宣傳以及大部分人的理解，SparkSQL和DataFrame雖然基於RDD，但是由於對RDD做了優化，所以效能會優於RDD。

之前一直也是這麼理解和操作的，直到最近遇到了一個場景，打破了這種不太準確的認識。

某些場景下，RDD要比DataFrame快，效能有天壤之別。

需求如下：

以下兩份資料求交集，結果輸出url。

資料一，json格式，地址我們用path_json表示，大小10T，每一行資料格式：{"id":"md5字串", "url":"https://www.thesaurus.com/","title":"sysnonyms and antonyms",xxx}，大概20來個欄位；

資料二，csv格式，地址我們用path_csv表示，大小50G，每一行資料格式：name url，2個欄位，用\t隔開。

拿到需求後，迅速瞟了一眼資料，爽快答應需求方分分鐘搞定。

此時此刻，必須得祭出宇宙Top N的IDE，結合我30多年的人生閱歷和程式碼經驗，瞬間雷光電扇，驚雷驟起，一頓操作猛如虎，天空飄過以下幾行程式碼：

(老鐵們，請自行安裝python，pyspark，pycharm)

方案一

from pyspark.sql import SparkSession

def join_it():
    path_json = 'hdfs://i/love/you/'  # 資料大小10T, 5萬分割槽
    path_csv  = 'hdfs://you/love/me'  # 資料大小50G
    path_save = 'hdfs://we/are/together'

    df1 = spark.read.json(path_json).select('url')
    df2 = spark.read.option('sep', '\t').schema('name string, url string').csv(path_csv)
    df1.join(df2) \
        .select(df1.url)\
        .coalesce(10000) \
        .write \
        .mode('overwrite') \
        .option('sep', '\t') \
        .csv(path_save)


if __name__ == '__main__':
    spark = SparkSession.builder.appName('pyspark').getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel("ERROR")
    #
    join_it()
    #
    spark.stop()

spark-submit提交任務到spark叢集，引數根據自己的實際情況自行修改。

spark-submit \
    --master yarn \
    --deploy-mode client \
    --name 'i-live-you' \
    --queue 'you-love-me' \
    --driver-cores 10 \
    --driver-memory 30g \
    --num-executors 3000 \
    --executor-memory 30g \
    --executor-cores 4 \
    --archives 'hdfs://your-python-path-on-hdfs#pkg'
    --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON='叢集裡面的python地址' \
    --conf spark.sql.shuffle.partitions=50000 \
    --conf spark.default.parallelism=50000 \
    --conf spark.task.maxFailures=20 \
    your-spark-script.py

如果需要在本機除錯程式碼，spark的生成需要替換成如下，然後直接執行。除錯通過後，仍然需要按照上述方式spark-submit提交任務到叢集執行，由於資料量很大，需要在叢集執行才能看出效能差異。

spark = SparkSession.builder.appName('pyspark').master('local[*]').getOrCreate()

又是一頓猛操作，提交任務後，嗡嗡叫的肚子提醒我，要去廁所燒一根香，拜拜佛，佛祖保佑無bug。

深圳的夏天，依舊不負眾望的燥熱。熱情似火的太陽，伴著她最愛的紫外線和電磁波，循著外太空固定的軌道，邁著30萬公里/秒的矯健步伐，到達這顆承載70億人的藍色星球，穿透層層藍天白雲，無私的照亮著廣袤的深圳大地。

酷暑讓人思想活躍，思緒萬千。扯得有點遠了，重來不重來了，接著寫bug。

作為一個謹記廁所文化的人，蹲坑5分鐘，方便你我他；蹲坑半小時，痔瘡等著你。我選擇了後者。

半小時過去了，時間隨著大A股的大跌，瞬間來到了下午的收盤時間。果不其然，又一個下跌如期而至，就在這一刻，體內的混濁之氣伴著伴隨著收跌的股市排出體外。收拾乾淨後，我帶著滿身廁所的芬芳，回到了座位上。

再次開啟電腦螢幕，spark任務還在慢悠悠的讀取json檔案，半小時才讀取300G左右，10T的json檔案按照這個速度，全部讀完的好幾天。此方案不可用。

方案二

果斷改成RDD，然後用intersection求交集，果然快很多，10T跟50G求交集，12000cores，5分鐘出結果。Spark任務提交同方案一，不再贅述。此方案可行

屁顛屁顛的把結果交付給需求方，大佬甚是滿意地流出了開心的淚水

import json
from pyspark.sql import SparkSession

def join_it():
    path_json = 'hdfs://i/love/you/'  # 資料大小10T, 5萬分割槽
    path_csv  = 'hdfs://you/love/me'  # 資料大小50G
    path_save = 'hdfs://we/are/together'
    #
    rdd1 = sc.textFile(path_json).map(lambda v: json.loads(v).get('url', '')).coalesce(50000)
    rdd2 = sc.textFile(path_csv).map(lambda v: v.split('\t')[1])
    rdd1.intersection(rdd2).coalesce(20000).saveAsTextFile(path_save)


if __name__ == '__main__':
    spark = SparkSession.builder.appName('pyspark').getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel("ERROR")
    #
    join_it()
    #
    spark.stop()

方案三

離下班實際還有30分鐘，作為一個對技術有追求的資深碼農，嘗試用SparkSQL實現該功能。祭出程式碼，以資各位看官共享，新能跟RDD不相上下。此方案也可取。

import json
from pyspark.sql import SparkSession

def join_it():
    path_json = 'hdfs://i/love/you/'  # 資料大小10T, 5萬分割槽
    path_csv  = 'hdfs://you/love/me'  # 資料大小50G
    path_save = 'hdfs://we/are/together'
    #
    sc.textFile(path_json).map(lambda v: (json.loads(v).get('url', ''),)).toDF(['url']).createOrReplaceTempView('a')
    spark.read.option('sep', '\t').schema('name string, url string').csv(path_csv).createOrReplaceTempView('b')

    sql = '''
    SELECT
        a.url
    FROM
        a
    JOIN
        b
    ON
        a.url=b.url
    '''
    spark.sql(sql).coalesce(20000).write.mode('overwrite').option('sep', '\t').csv(path_save)


if __name__ == '__main__':
    spark = SparkSession.builder.appName('pyspark').getOrCreate()
    sc = spark.sparkContext
    sc.setLogLevel("ERROR")
    #
    join_it()
    #
    spark.stop()

總結：

當遇到源資料是體量比較大的json或其他格式的時候，不要用spark.read的形式直接匯入到DataFrame。

那要咋弄？可以先用RDD把源資料載入進來，然後再轉化成DataFrame，後面用SparkSQL進行操作，如此可達到較好的效能效果。

Spark SQL中的RDD與DataFrame轉換
2019-08-12
SparkSQL
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Spark RDD詳解 | RDD特性、lineage、快取、checkpoint、依賴關係
2020-10-23
Spark快取
spark-RDD
2020-10-25
Spark
Spark RDD API
2021-09-09
SparkAPI
Spark - [03] RDD概述
2024-05-12
Spark
SparkSQL，如何將DataFrame轉為json格式
2018-12-06
SparkSQLJSON
spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
Spark 的核心概念 RDD
2019-04-20
Spark
Spark建立空的DataFrame
2021-09-09
Spark
Spark RDD 特徵及其依賴
2018-09-23
Spark特徵
spark學習筆記--RDD
2018-07-05
Spark筆記
Spark RDD中Runtime流程解析
2020-09-04
Spark
Spark API 全集(1):Spark SQL Dataset & DataFrame API
2018-12-09
SparkAPISQL
Spark（十三） Spark效能調優之RDD持久化
2019-01-15
Spark持久化
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
RDD的快取
2021-11-11
快取
Spark DataFrame的groupBy vs groupByKey
2018-11-04
Spark
Spark學習（二）——RDD基礎
2019-03-31
Spark
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
Apache Spark Dataframe Join語法教程
2019-01-08
ApacheSpark
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL
Calcite 使用原生的RDD 處理Spark
2018-06-28
Spark
Spark從入門到放棄---RDD
2020-08-17
Spark
Spark RDD運算元（八）mapPartitions， mapPartitionsWithIndex
2020-11-16
SparkAPPIndex
大白話講解Spark中的RDD
2020-11-15
Spark
《深入理解Spark》之sparkSQL 處理流程
2018-10-11
SparkSQL
15、Spark Sql（一），生成DataFrame的方式
2018-03-04
SparkSQL
客快物流大資料專案(四十六)：Spark操作Kudu dataFrame操作kudu
2024-03-30
大資料Spark
spark學習筆記--RDD鍵對操作
2018-07-06
Spark筆記
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
Spark----RDD運算元分類 DAG
2020-12-23
Spark
Spark SQL，如何將 DataFrame 轉為 json 格式
2018-12-06
SparkSQLJSON
Spark的基本結構及SparkSQL元件的基本用法
2018-04-27
SparkSQL元件
【Spark篇】---SparkSql之UDF函式和UDAF函式
2018-03-07
SparkSQL函式
Spark效能優化：對RDD持久化或CheckPoint操作
2018-09-14
Spark優化持久化
通過WordCount解析Spark RDD內部原始碼機制
2020-09-02
Spark原始碼

SparkSQL /DataFrame /Spark RDD誰快？

相關文章