Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/spring-mvc/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
pyspark中的内部连接混淆_Pyspark_Pyspark Sql - Fatal编程技术网

pyspark中的内部连接混淆

pyspark中的内部连接混淆,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我在pyspark shell中使用的内部联接如下: tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 由于我使用同一个表进行内部联接,所以应该期望选项卡_df.count()与ori _df.count()相等,但是选项卡_df.count()给我0 使用此命令: tab_df = ori_df.join(ori_df, ['column_name']) pyspark默认使用内部联接 我试着在我的电脑里连接两个相同的表,结果成功了 为什么

我在pyspark shell中使用的内部联接如下:

tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
由于我使用同一个表进行内部联接,所以应该期望
选项卡_df.count()
ori _df.count()
相等,但是
选项卡_df.count()
给我0

使用此命令:

tab_df = ori_df.join(ori_df, ['column_name'])
pyspark默认使用内部联接

我试着在我的电脑里连接两个相同的表,结果成功了

为什么要连接两个相同的表?

然后可以使用pyspark的subtract()方法。
要知道两个数据帧是否相等。

只需验证两个表的数据是否相同,谢谢您的回答