Scala 如何比较不同来源上的Spark数据帧

Scala 如何比较不同来源上的Spark数据帧,scala,apache-spark,dataframe,google-cloud-dataproc,Scala,Apache Spark,Dataframe,Google Cloud Dataproc,我的用例要求将数据从AWS迁移到Google Cloud Dataproc集群,作为数据质量检查,我需要比较我试图创建spark数据帧的源数据和目标数据,然后比较差异 我面临的问题是数据位于不同的集群上,为了进行比较,我需要数据帧位于同一集群上 是否有任何可行的解决方案来实现这一点

我的用例要求将数据从AWS迁移到Google Cloud Dataproc集群,作为数据质量检查,我需要比较我试图创建spark数据帧的源数据和目标数据,然后比较差异

我面临的问题是数据位于不同的集群上,为了进行比较,我需要数据帧位于同一集群上

是否有任何可行的解决方案来实现这一点