一個pyspark 開發練習例項

gaussen126發表於2024-07-15

原文網址 : https://www.cnblogs.com/gao1261828/p/18303700

例項功能說明：
1，使用pyspark 開發了一個資料ETL ，分析的練習專案。

2，例項功能為，從mysql讀取表資料，按照一定規則進行ETL。 以csv格式儲存到 hadoop.
並特別的使用了Spark提供的3種API進行統計分析，分別是RDD運算元，Dataframe運算元， SQL程式設計運算元， 進行了數量統計，

3, 元件版本：
　　pyspark: 3.3.1 
　　python: 3.9

# Imports
from pyspark.sql import SparkSession

# Create SparkSession
spark = SparkSession.builder \
    .appName('SparkByExamples.com') \
    .config("spark.jars", "mysql-connector-java-5.1.28.jar") \
    .getOrCreate()

# Read from MySQL Table
table_df = spark.read \
    .format("jdbc") \
    .option("driver", "com.mysql.jdbc.Driver") \
    .option("url", "jdbc:mysql://134.98.6.21:9200/hesc_stm_xhm") \
    .option("dbtable", "temp_user_grid") \
    .option("user", "root") \
    .option("password", "*****dx") \
    .load()

# check  read accessable
# print( table_df.count())  # 總行數

# etl 使用rdd 運算元
rdd = table_df.rdd
# print(rdd.first())


rdd1 = rdd.filter(lambda r: Row.asDict(r).get("cityCode") != None).filter(
    lambda r: len(Row.asDict(r).get("cityCode")) == 9)


# print(rdd.map(lambda r: Row.asDict(r).get("cityCode")).take(5))   # ROW型別的元素讀取 使用 r(19)讀取列有問題

def checkCityCode(str):
    # 判斷字串的格式，前3位為001，而且全為數字
    if (str[:3] == '001') and str.isnumeric():
        return True
    else:
        return False


# 過濾RDD

rdd2 = rdd1.filter(lambda r: checkCityCode(Row.asDict(r).get("cityCode")))  # 函式使用錯誤
print(rdd2.first())

# 寫入檔案系統
# target = "D:\program\logs\table_data.txt"
# rdd2.toDF().write.format("CSV").mode("overwrite").options(header=True).save(target)

#  刻意使用了 rdd  df運算元 sql 三種運算元 ; 統計不同網格的人員數量。
# rdd operator

map = rdd2.map(lambda r: (Row.asDict(r).get("gridCode"), Row.asDict(r).get("id"))).countByKey()
print(map)   #  查詢python  rdd api
# mapPartitions, 對分割槽計算，分割槽太大不合適，記憶體不足。 比如寫入資料，可以避免建立很多連線。


# df/ds operator   dataset 1.6之後加入， 整合了RDD 的強型別便於使用lambda函式以及 sqpark sql 最佳化引擎
#  dataframe是 dataset 的 一種。 dataframe 適用python . 以下把rdd轉為為 dataframe.繼續分組聚合。

df = rdd2.toDF()
df1 = df.groupBy('gridCode').count()  # dataframe  特定程式語言 對結構化資料操作， 也稱 無型別dataset運算元
df1.show(4)

# 繼續轉化資料集，儲存為spark內臨時表，繼續用SQL運算元進行開發計算
# sql  operator  
df.createOrReplaceTempView('temp_user_grip')
df2 = spark.sql("select gridCode, count(id)  from temp_user_grip group by gridCode")
df2.show(2)

spark.stop()

css例項整理-練習大全
2020-10-25
CSS
json例項練習 json物件
2021-09-09
JSON物件
Java-發紅包例項-繼承練習
2020-07-10
Java繼承
前端例項練習 – 模態相簿
2019-02-16
前端
WEB例項：開發一個聊天室應用
2018-09-11
Web
ArcGIS開發（二）——一個基本視窗的例項化
2018-06-20
通過10個例項小練習，快速熟練 Vue3.0 核心新特性
2020-05-11
Vue
NeurIPS 2024 | 無需訓練，一個框架搞定開放式目標檢測、例項分割
2024-11-16
框架
python開發例項-python開發案例
2020-10-30
Python
[邊學邊練]用簡單例項學習React
2018-08-27
單例React
frida 建立一個ArrayList例項
2024-11-02
C#開發例項大全
2018-07-24
C#
一個小練習。
2018-03-31
運動員與教練例項
2020-10-11
如何使用低程式碼開發平臺快速建立一個應用 | 例項演示
2020-04-02
Java開發學習(四)----bean的三種例項化方式
2022-06-12
JavaBean
一個馬爾科夫鏈例項
2018-07-28
馬爾科夫
3.1.4 準備啟動一個例項
2020-03-14
分享一個SQLite 效能優化例項
2022-01-13
SQLite優化
一個例項中，多個synchronized方法的呼叫
2018-05-05
synchronized
Makefile例項學習
2024-06-16
整理了這23個開源項，初學者可以拿來練習！
2022-02-28
android原生開發recyclerview基礎例項
2020-12-09
AndroidView
原生javascript開發計算器例項
2021-02-21
JavaScript
Python爬蟲專案100例，附原始碼！100個Python爬蟲練手例項
2021-09-09
Python爬蟲原始碼
GObject學習筆記（一）類和例項
2024-11-17
GoObject筆記
oracle一個listener偵聽多個例項的配置
2018-12-20
Oracle
【CSS練習】IT修真院–練習2-開發工具
2018-06-01
CSS
tail命令學習例項
2021-01-06
AI
測試驅動開發(TDD)例項演示
2020-05-14
vlc qt player 播放器開發例項
2022-12-29
QT播放器
Docker開發例項之應用場景
2022-05-30
Docker
開始例項化
2020-11-16
MySQL 拷貝一個InnoDB分割槽表到另一個例項
2022-04-11
MySql
docker redis 多個例項
2019-02-28
DockerRedis
分享一個Laravel中的管道的使用例項
2020-09-05
Laravel
如何區分例項化網格中的每個例項
2024-11-04
HarmonyOS開發例項：【相機和媒體庫】
2024-04-22

一個pyspark 開發練習例項

相關文章