Pyspark SparkSQL数据帧列中的差异

Pyspark SparkSQL数据帧列中的差异,pyspark,pyspark-sql,Pyspark,Pyspark Sql,如何定位两个数据帧列之间的差异? 当我加入2个数据帧时,这会导致问题 df1_cols=df1.0列 df2_cols=df2.0列 这将返回2个列表变量中的2个dataframe的列 谢谢df。columns在这里返回一个列表,因此您可以使用python中的任何工具与另一个列表进行比较,即df2\u cols。e、 g.您可以使用set检查两个数据帧中的公共列 df1_cols = df1.columns df2_cols = df2.columns set(df1_cols).interse

如何定位两个数据帧列之间的差异? 当我加入2个数据帧时,这会导致问题

df1_cols=df1.0列 df2_cols=df2.0列 这将返回2个列表变量中的2个dataframe的列


谢谢

df。columns
在这里返回一个列表,因此您可以使用python中的任何工具与另一个列表进行比较,即
df2\u cols
。e、 g.您可以使用
set
检查两个数据帧中的公共列

df1_cols = df1.columns
df2_cols = df2.columns
set(df1_cols).intersection(set(df2_cols))  # check common columns
set(df1_cols) - set(df2_cols) # check columns in df1 but not in df2
set(df2_cols) - set(df1_cols) # check columns in df2 but not in df1

你的问题充其量是含糊不清的。请执行以下操作:1。共享示例数据帧2。分享你的代码3。分享你的错误4。共享所需的输出。