檢視spark程式/區分pyspark和pandas的表的合併,pyspark是join,pandas是merge

一隻勤奮愛思考的豬發表於2018-10-08

原文網址 : https://blog.csdn.net/sinat_26566137/article/details/81671907

命令：
vim ~/.bashrc

source ~/.bashrc

ps aux | grep spark

pkill -f "spark"


sudo chown -R sc:sc  spark-2.3.1-bin-hadoop2.7/

sudo mv /home/sc/Downloads/spark-2.3.1-bin-hadoop2.7 /opt/


locate *punish*
查詢檔案路徑;


用pandas做join報錯:
我用pandas做join像這樣:df22 = df1.join(df2, df2.company_name_a == df1.company_name,'left_outer')  報這個錯:ValueError: Can only compare identically-labeled Series objects

pyspark文件做join的文件:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql

>>> df1.join(df2, df1["value"] == df2["value"]).count()
0
>>> df1.join(df2, df1["value"].eqNullSafe(df2["value"])).count()

pandas的merge文件:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge.html

train_x = pd.read_csv('/home/sc/PycharmProjects/sc/risk_rules/sklearn_result_02/the_check_shixin_train.csv')
print(train_x.columns)
train_x['add_companyname'] = train_x['company_name']
print(train_x.columns)
df_check_1000 = pd.read_csv('/home/sc/Desktop/shixin_detect_result_shixin_cnt.csv')
df_check_1000=df_check_1000.drop_duplicates()
df_ch1 = pd.merge(df_check_1000,train_x,on='company_name',how='left')
print(df_ch1.head(2))
df_ch2 = df_ch1[(df_ch1['add_companyname'].isnull()) & (df_ch1['shixin_cnt'] != 1)] #248家；多次失信並且沒有在訓練集出現過
print(df_ch2.groupby(['id']).size())
print(df_ch2.groupby(['shixin_cnt']).size())
print(len(df_ch2))

df_ch2 = pd.merge(df_ch2,df_check_1000,on='company_name',how='left')
print(len(df_ch2))
cols = ['company_name','established_years',
       'industry_dx_rate', 'regcap_change_cnt', 'industry_dx_cnt',
       'address_change_cnt', 'network_share_cancel_cnt', 'cancel_cnt',
       'fr_change_cnt', 'network_share_zhixing_cnt',
       'network_share_judge_doc_cnt', 'judge_doc_cnt', 'share_change_cnt',
       'industry_all_cnt', 'network_share_or_pos_shixin_cnt',
       'judgedoc_cnt']
print("hahahhaha")
print(df_ch2.columns)
df_ch22 = df_ch2.ix[:, cols]
print(df_ch22.columns)

比較 Pandas、Polars 和 PySpark：基準分析
2024-05-21
Spark
python pandas Join SQL⻛格合併
2020-12-27
PythonSQL
Pandas 基礎 (9) - 組合方法 merge
2019-04-02
pandas merge報錯
2018-08-27
PySpark和SparkSQL基礎：如何利用Python程式設計執行Spark（附程式碼）
2020-02-27
SparkSQLPython程式設計
pandas -- DataFrame的級聯以及合併操作
2023-10-02
Pandas高階教程之:Dataframe的合併
2021-06-14
合併分支：Git merge 和 rebase 的區別
2024-10-21
Git
pandas 兩列資料合併
2020-11-18
Git merge和rebase分支合併命令的區別
2019-03-03
Git
python中pandas.Dataframe合併的方法有哪些？
2021-09-11
Python
【pyspark】dataframe常用操作
2020-11-05
Spark
寫給小白的pySpark入門
2021-09-09
Spark
array_merge和+號合併陣列的區別
2019-02-16
陣列
pandas中如何使用合併append函式？
2021-09-11
APP函式
PySpark與GraphFrames的安裝與使用
2022-03-07
Spark
pyspark底層淺析
2019-02-16
Spark
PySpark DataFrame教程與演示
2024-03-08
Spark
PySpark 通過Arrow加速
2019-01-28
Spark
PySpark筆記(三)：DataFrame
2021-09-09
Spark筆記
pandas 分組合並欄位（qbit）
2022-12-23
多視窗大小和Ticker分組的Pandas滾動平均值
2024-01-24
Python學習之Pandas和Numpy的區別！
2021-05-08
Python
python中安裝配置pyspark庫教程需要配合spark+hadoop使用
2018-06-17
PythonSparkHadoop
向量化操作是 Pandas 的一個強大特性
2024-08-22
在Pandas中 SQL操作：SQLAlchemy和PyMySQL的區別
2024-07-27
MySql
Pyspark資料基礎操作集合
2020-10-27
Spark
Python, pandas: how to sort dataframe by index// Merge two dataframes by index
2018-11-22
PythonIndex
Pandas中apply、applymap、map的區別
2020-12-12
APP
檢視oracle被鎖的表是誰鎖的
2020-06-25
Oracle
要命的MERGE JOIN CARTESIAN
2019-06-20
解析Pyspark如何讀取parquet資料
2020-04-15
Spark
Pandas切片操作：很容易忽視的SettingWithCopyWarning
2020-05-06
使用 PySpark 建立新列的 4 種不同方式 - Soner
2021-12-25
Spark
別找了，這是 Pandas 最詳細教程了
2020-04-06
MySQL 合併查詢join 查詢出的不同列合併到一個表中
2023-02-02
MySql
128 PHP合併陣列+與array_merge的區別分析
2018-09-12
PHP陣列
Pandas的使用技巧
2020-10-18

檢視spark程式/區分pyspark和pandas的表的合併,pyspark是join,pandas是merge

相關文章