檢視spark程式/區分pyspark和pandas的表的合併,pyspark是join,pandas是merge
命令:
vim ~/.bashrc
source ~/.bashrc
ps aux | grep spark
pkill -f "spark"
sudo chown -R sc:sc spark-2.3.1-bin-hadoop2.7/
sudo mv /home/sc/Downloads/spark-2.3.1-bin-hadoop2.7 /opt/
locate *punish*
查詢檔案路徑;
用pandas做join報錯:
我用pandas做join像這樣:df22 = df1.join(df2, df2.company_name_a == df1.company_name,'left_outer') 報這個錯:ValueError: Can only compare identically-labeled Series objects
pyspark文件做join的文件:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql
>>> df1.join(df2, df1["value"] == df2["value"]).count()
0
>>> df1.join(df2, df1["value"].eqNullSafe(df2["value"])).count()
pandas的merge文件:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge.html
train_x = pd.read_csv('/home/sc/PycharmProjects/sc/risk_rules/sklearn_result_02/the_check_shixin_train.csv')
print(train_x.columns)
train_x['add_companyname'] = train_x['company_name']
print(train_x.columns)
df_check_1000 = pd.read_csv('/home/sc/Desktop/shixin_detect_result_shixin_cnt.csv')
df_check_1000=df_check_1000.drop_duplicates()
df_ch1 = pd.merge(df_check_1000,train_x,on='company_name',how='left')
print(df_ch1.head(2))
df_ch2 = df_ch1[(df_ch1['add_companyname'].isnull()) & (df_ch1['shixin_cnt'] != 1)] #248家;多次失信並且沒有在訓練集出現過
print(df_ch2.groupby(['id']).size())
print(df_ch2.groupby(['shixin_cnt']).size())
print(len(df_ch2))
df_ch2 = pd.merge(df_ch2,df_check_1000,on='company_name',how='left')
print(len(df_ch2))
cols = ['company_name','established_years',
'industry_dx_rate', 'regcap_change_cnt', 'industry_dx_cnt',
'address_change_cnt', 'network_share_cancel_cnt', 'cancel_cnt',
'fr_change_cnt', 'network_share_zhixing_cnt',
'network_share_judge_doc_cnt', 'judge_doc_cnt', 'share_change_cnt',
'industry_all_cnt', 'network_share_or_pos_shixin_cnt',
'judgedoc_cnt']
print("hahahhaha")
print(df_ch2.columns)
df_ch22 = df_ch2.ix[:, cols]
print(df_ch22.columns)
相關文章
- 比較 Pandas、Polars 和 PySpark:基準分析Spark
- python pandas Join SQL⻛格合併PythonSQL
- Pandas 基礎 (9) - 組合方法 merge
- pandas merge報錯
- PySpark和SparkSQL基礎:如何利用Python程式設計執行Spark(附程式碼)SparkSQLPython程式設計
- pandas -- DataFrame的級聯以及合併操作
- Pandas高階教程之:Dataframe的合併
- 合併分支:Git merge 和 rebase 的區別Git
- pandas 兩列資料合併
- Git merge和rebase分支合併命令的區別Git
- python中pandas.Dataframe合併的方法有哪些?Python
- 【pyspark】dataframe常用操作Spark
- 寫給小白的pySpark入門Spark
- array_merge和+號合併陣列的區別陣列
- pandas中如何使用合併append函式?APP函式
- PySpark與GraphFrames的安裝與使用Spark
- pyspark底層淺析Spark
- PySpark DataFrame教程與演示Spark
- PySpark 通過Arrow加速Spark
- PySpark筆記(三):DataFrameSpark筆記
- pandas 分組合並欄位(qbit)
- 多視窗大小和Ticker分組的Pandas滾動平均值
- Python學習之Pandas和Numpy的區別!Python
- python中安裝配置pyspark庫教程需要配合spark+hadoop使用PythonSparkHadoop
- 向量化操作是 Pandas 的一個強大特性
- 在Pandas中 SQL操作:SQLAlchemy和PyMySQL的區別MySql
- Pyspark資料基礎操作集合Spark
- Python, pandas: how to sort dataframe by index// Merge two dataframes by indexPythonIndex
- Pandas中apply、applymap、map的區別APP
- 檢視oracle被鎖的表是誰鎖的Oracle
- 要命的MERGE JOIN CARTESIAN
- 解析Pyspark如何讀取parquet資料Spark
- Pandas切片操作:很容易忽視的SettingWithCopyWarning
- 使用 PySpark 建立新列的 4 種不同方式 - SonerSpark
- 別找了,這是 Pandas 最詳細教程了
- MySQL 合併查詢join 查詢出的不同列合併到一個表中MySql
- 128 PHP合併陣列+與array_merge的區別分析PHP陣列
- Pandas的使用技巧