pyFlink 入門總結

ddzhen發表於2024-05-13

原文網址 : https://www.cnblogs.com/ddzhen/p/18188654

一　整體流程

1. 初始化pyFlink執行環境

2. 載入資料集

3. 執行資料分析

4. 匯出分析結果

二初始化執行環境

2.1 初始化

參考程式碼如下

from pyflink.table import EnvironmentSettings, StreamTableEnvironment

es = EnvironmentSettings.new_instance().in_batch_mode().build()

tv = StreamTableEnvironment.create(environment_settings=es)

2.2 其它

待補充其它初始化方法，如流處理等

三載入資料集

3.1 基於變數

參考程式碼如下

data = [['T1', 34, 'XY'],['T2', 34, 'NY'],['T3', 33, 'XX'],['T4', 33, 'JZ'],['T5', 33, 'SZ'],['T6', 33, 'PDS'],['T7', 32, 'XC'],['T8', 32, 'NY']]

tbl = tv.from_elements(data, ['name','age','city'],['STRING','INT','STRING'])

tv.create_temporary_view('itable', tbl) # 註冊為flinksql能訪問的對向

3.2 基於pandas.DataFrame

dfa = pd.DataFrame(data, columns='name age city'.split())

tbl = tv.from_pandas(dfa)

3.3 基於csv

csv_path = 'iexample.csv'

csv_schema = 'name string, age int, city string'

csv_sql = F"create table iTable({csv_schema}) with ('connector' = 'filesystem', 'path' = '{csv_path}', 'format' = 'csv'))"

tv.execute_sql(csv_sql)

tbl = tv.from_path('iTable')

經驗1 包含表頭的csv會報錯

經驗2 csv_sql 後面的with 中的引號必須是單引號雙引號會報錯

經驗3 不要建立重名的表，會報錯此條有待進一步確認

3.4 連線postgresql

from pyflink.table import EnvironmentSettings, StreamTableEnvironment

es = EnvironmentSettings.new_instance().in_batch_mode().build()

tv = StreamTableEnvironment.create(environment_settings=es)

pg_schema = 'name STRING, age INT, city string'

dsn = F'jdbc:postgresql://{host}:{port}/{database}'

pg_sql = F"create table pg_table ({pg_schema})with ('connector'='jdbc','url'='{dsn}','table-name'='{table_name}','driver'='org.postgresql.Driver','username'='{user}','password'='{pwd}')"

print(pg_sql)

tv.execute_sql(pg_sql)

tbl = tv.from_path('pg_table')

tbl.limit(5).execute().print()

經驗4 需要下載flink-connector-jdbc-*.jar檔案和 postgresql-*.jar檔案對應目錄是pyflink安裝目錄的 lib資料夾下

經驗5 連線依賴檔案與資料庫版本也有關係

四資料處理

4.1 簡單處理

1) select

from pyflink.table.expressions import col, call

tt = tbl.select(col("city"))

tt.limit(3).execute().print()

2)group_by

tbl.group_by(col('city')).select(col('city'),call("count", col('city')).alias('cnt')).execute().print()

tv.register_table('itable', tbl)

tv.sql_query('select city, count(*)cnt from itable group by city').execute().print()

3)order_by

tbl.order_by(col('age').desc).execute().print()

4)buildin function

tbl.select(call('avg',col('age')).alias('age_avg')).execute().print()

tbl.select(call('sum',col('age')).alias('age_sum')).execute().print()

5)normalized

@udf(result_type='Row<_name string, _age float>', func_type='pandas')
def inormal(data: pd.DataFrame) -> pd.DataFrame:
    data['_age'] = (data['age']-data['age'].mean())/data['age'].std()
    return data[['name', '_age']]
tbl.map(inormal).execute().print()

6）map & udf

@udf(result_type='Row<_name string, province string>', func_type='pandas')
def itown(data: pd.DataFrame) -> pd.DataFrame:
    data['province'] = data.city.apply(lambda x: dct.get(x))
    return data[['name', 'province']]
tbl.map(itown).execute().print()

4.2 其它處理

待補充

五輸出

5.1 print

tbl.map(itown).execute().print()

5.2 CSV

# 定義輸出 CSV 檔案的 schema
sink_schema = "name STRING, age int, _age float, city string, province string"
# 定義輸出 CSV 檔案的目錄
sink_path = "tmpfile"
# 註冊輸出表
tv.execute_sql(f"""
    CREATE TABLE sink_table (
        {sink_schema}
    ) WITH (
        'connector' = 'filesystem',
        'path' = '{sink_path}',
        'format' = 'csv'
    )
""")

_age = tbl.map(inormal)
_town = tbl.map(itown)
t1 = tbl.join(_age).where(col('name')==col('_name')).select(col('name'), col('age'), col('_age'), col('city'))
t2 = t1.join(_town).where(col('name')==col('_name')).select(col('name'), col('age'), col('_age'), col('city'), col('province'))
tv.create_temporary_view('jtable', t2)  # old api tv.register_table

# 執行查詢並將結果寫入輸出表
sql = 'INSERT INTO sink_table(name, age, _age, city, province) SELECT name, age, _age, city, province FROM jtable'
tv.execute_sql(sql).wait()

經驗6 csv輸出路徑只能指定目錄不能指定名稱

經驗7 資料庫輸出需要提前建立供寫入的表

5.3 POSTGRESQL

pg_schema = "name STRING, age int, _age float, city string, province string"
dsn = F'jdbc:postgresql://{host}:{port}/{database}'
pg_sql = F"create table pg_table ({pg_schema})with ('connector'='jdbc','url'='{dsn}','table-name'='{table_name}','driver'='org.postgresql.Driver','username'='{user}','password'='{pwd}')"
tv.execute_sql(pg_sql)  # create

sql = 'INSERT INTO pg_table(name, age, _age, city, province) SELECT name, age, _age, city, province FROM jtable'
tv.execute_sql(sql).wait()

vue 入門總結
2018-11-21
Vue
Nuxt入門總結
2018-09-18
UX
React入門總結
2019-01-31
React
HTTPS入門級總結
2018-09-22
HTTP
測試入門總結
2020-12-15
docker入門知識總結
2020-11-01
Docker
JavaScript入門⑧-事件總結大全
2022-12-08
JavaScript事件
ElasticSearch極簡入門總結
2021-01-23
Elasticsearch
程式碼審計入門總結
2020-08-19
koa2入門使用總結
2018-12-24
BootStrap基礎入門概述總結
2022-02-09
boot
Docker快速入門總結筆記
2022-03-12
Docker筆記
python入門總結(資料分析方向)
2019-09-01
Python
Python入門必備知識點總結
2019-02-28
Python
RabbitMQ由淺入深入門全總結（一）
2021-06-15
MQ
RabbitMQ由淺入深入門全總結（二）
2021-06-17
MQ
Canal詳細入門實戰(使用總結)
2021-05-19
React中文文件閱讀總結——快速入門
2018-05-10
React
Redux中文文件閱讀總結——快速入門
2018-05-15
Redux
python 語法總結：Python語法快速入門
2023-10-09
Python
【總結】10款Python爬蟲框架！Python入門
2021-05-20
Python爬蟲框架
Web前端入門的學習路線總結
2021-05-19
Web前端
Flutter 入門與實戰（三十六）：Dio 篇章總結
2021-07-26
Flutter
入門前端一週年總結-我是如何快速入門前端的知識分享
2019-01-02
前端
Python入門教程100天：Day05-練習總結
2019-04-02
Python
【總結】10大Python庫介紹!Python基礎入門
2021-05-25
Python
Flutter 入門與實戰（六十五）：Redux 總結篇
2021-08-28
FlutterRedux
SSH後門分析總結
2018-04-11
Quartz.net 3.x使用總結(一)——入門介紹
2019-01-16
quartz
Python網路程式設計（基礎總結入門經典）
2018-08-18
Python程式設計
Java SPI機制總結系列之開發入門例項
2023-11-11
Java
構建RAG應用-day02: prompt技巧總結 llamaIndex入門
2024-04-21
AIIndex
Laravel 開發入門課程基礎頁面實現總結
2020-01-09
Laravel
Spring Boot入門(四)：開發Web Api介面常用註解總結
2019-04-24
Spring BootWebAPI
慕課網《Netty入門之WebSocket初體驗》學習總結
2021-09-09
NettyWeb
攝像頭 ISP 除錯的入門之談（經驗總結）
2021-06-09
除錯
pyflink的安裝和測試
2022-07-06
JAVA入門學習初步總結3 方法類繼承多型等
2021-09-09
Java繼承多型