Pyspark SparkSQL数据帧列中的差异_Pyspark_Pyspark Sql

Pyspark SparkSQL数据帧列中的差异

pyspark

Pyspark SparkSQL数据帧列中的差异,pyspark,pyspark-sql,Pyspark,Pyspark Sql,如何定位两个数据帧列之间的差异？当我加入2个数据帧时，这会导致问题 df1_cols=df1.0列 df2_cols=df2.0列这将返回2个列表变量中的2个dataframe的列谢谢df。columns在这里返回一个列表，因此您可以使用python中的任何工具与另一个列表进行比较，即df2\u cols。e、 g.您可以使用set检查两个数据帧中的公共列 df1_cols = df1.columns df2_cols = df2.columns set(df1_cols).interse

如何定位两个数据帧列之间的差异？当我加入2个数据帧时，这会导致问题

df1_cols=df1.0列 df2_cols=df2.0列这将返回2个列表变量中的2个dataframe的列

谢谢

df。columns

在这里返回一个列表，因此您可以使用python中的任何工具与另一个列表进行比较，即

df2\u cols

。e、 g.您可以使用

set

检查两个数据帧中的公共列

df1_cols = df1.columns
df2_cols = df2.columns
set(df1_cols).intersection(set(df2_cols))  # check common columns
set(df1_cols) - set(df2_cols) # check columns in df1 but not in df2
set(df2_cols) - set(df1_cols) # check columns in df2 but not in df1

你的问题充其量是含糊不清的。请执行以下操作：1。共享示例数据帧2。分享你的代码3。分享你的错误4。共享所需的输出。