pyspark中的内部连接混淆
我在pyspark shell中使用的内部联接如下:pyspark中的内部连接混淆,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我在pyspark shell中使用的内部联接如下: tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 由于我使用同一个表进行内部联接,所以应该期望选项卡_df.count()与ori _df.count()相等,但是选项卡_df.count()给我0 使用此命令: tab_df = ori_df.join(ori_df, ['column_name']) pyspark默认使用内部联接 我试着在我的电脑里连接两个相同的表,结果成功了 为什么
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
由于我使用同一个表进行内部联接,所以应该期望选项卡_df.count()
与ori _df.count()
相等,但是选项卡_df.count()
给我0 使用此命令:
tab_df = ori_df.join(ori_df, ['column_name'])
pyspark默认使用内部联接
我试着在我的电脑里连接两个相同的表,结果成功了
为什么要连接两个相同的表?然后可以使用pyspark的subtract()方法。
要知道两个数据帧是否相等。只需验证两个表的数据是否相同,谢谢您的回答