在scala中逐单元比较2个spark数据帧

在scala中逐单元比较2个spark数据帧,scala,apache-spark,Scala,Apache Spark,我正在比较hive表中摄取的数据与该源的数据,并将差异存储在mariadb中。这些表没有主键,我希望有一个优化解决方案。尽管我使用了except方法来检查差异,但我发现很难打印出同一行列中的差异它们是不同的。据我所知,在缺少主键的情况下不可能解决您的问题,因为在这种情况下,一个数据帧的每一行都可能不同于另一个数据帧的每一行,实际上,您不希望报告与另一个数据帧的每一行的差异。可能有助于检查此-I检查了上面的链接,他们正在进行按列比较,而不是按行比较,我需要打印出与列名不同的行

我正在比较hive表中摄取的数据与该源的数据,并将差异存储在mariadb中。这些表没有主键,我希望有一个优化解决方案。尽管我使用了except方法来检查差异,但我发现很难打印出同一行列中的差异它们是不同的。

据我所知,在缺少主键的情况下不可能解决您的问题,因为在这种情况下,一个数据帧的每一行都可能不同于另一个数据帧的每一行,实际上,您不希望报告与另一个数据帧的每一行的差异。

可能有助于检查此-I检查了上面的链接,他们正在进行按列比较,而不是按行比较,我需要打印出与列名不同的行