Dataframe pyspark:比较2个大型pyspark数据帧

Dataframe pyspark:比较2个大型pyspark数据帧,dataframe,pyspark,Dataframe,Pyspark,我有2个pyspark数据帧,包含50(列)*700000(行)数据 我想比较两个数据帧。对比较工具有什么建议吗?谢谢 关于如果要比较所有700k行,请使用。除所有(有重复项)(或)。减去(无重复项)内置函数以比较两个数据帧 (或) 如果您想只比较一些样本行,请将window行号函数与orderBy子句一起使用,并仅选择所需行,然后使用。除所有(或)函数。减法函数 示例: df=spark.createDataFrame([(1,'a'),(2,'b')],['id','name']) df1=

我有2个pyspark数据帧,包含50(列)*700000(行)数据

我想比较两个数据帧。对比较工具有什么建议吗?谢谢


关于

如果要比较所有700k行,请使用
。除所有
(有重复项)(或)
。减去
(无重复项)内置函数以比较两个数据帧

(或)

如果您想只比较一些样本行,请将window
行号
函数与
orderBy
子句一起使用,并仅选择所需行,然后使用
。除所有
(或)
函数。减法
函数

示例:

df=spark.createDataFrame([(1,'a'),(2,'b')],['id','name'])
df1=spark.createDataFrame([(1,'a')],['id','name']
from pyspark.sql.functions import *
df.exceptAll(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#+---+----+

df1.exceptAll(df).show()
#+---+----+
#| id|name|
#+---+----+

#or if you need to check only specific columns
df.select("id").exceptAll(df1.select("id")).show()
#+---+
#| id|
#+---+
#|  2|
#+---+


df=spark.createDataFrame([(1,'a'),(2,'b'),(1,'a')],['id','name'])
df.subtract(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#+---+----+
df.exceptAll(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#|  1|   a|
#+---+----+

如果要比较所有700k行,请使用
.exceptAll
(有重复项)(或)
。减去
(无重复项)内置函数比较两个数据帧

(或)

如果您想只比较一些样本行,请将window
行号
函数与
orderBy
子句一起使用,并仅选择所需行,然后使用
。除所有
(或)
函数。减法
函数

示例:

df=spark.createDataFrame([(1,'a'),(2,'b')],['id','name'])
df1=spark.createDataFrame([(1,'a')],['id','name']
from pyspark.sql.functions import *
df.exceptAll(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#+---+----+

df1.exceptAll(df).show()
#+---+----+
#| id|name|
#+---+----+

#or if you need to check only specific columns
df.select("id").exceptAll(df1.select("id")).show()
#+---+
#| id|
#+---+
#|  2|
#+---+


df=spark.createDataFrame([(1,'a'),(2,'b'),(1,'a')],['id','name'])
df.subtract(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#+---+----+
df.exceptAll(df1).show()
#+---+----+
#| id|name|
#+---+----+
#|  2|   b|
#|  1|   a|
#+---+----+