Apache spark Spark-如何按键合并2个数据帧并按createdTime消除重复

Apache spark Spark-如何按键合并2个数据帧并按createdTime消除重复,apache-spark,merge,apache-spark-sql,Apache Spark,Merge,Apache Spark Sql,我是Spark和mapreduce的新手。我想寻求帮助,这是有任何优雅的方式做如下。 因为我有一个数据帧a。 然后我想要有一个数据帧R,它的记录被数据帧A和新数据帧B之间的特定键合并,条件如下 A的record.createdTime

我是Spark和mapreduce的新手。我想寻求帮助,这是有任何优雅的方式做如下。 因为我有一个数据帧a。 然后我想要有一个数据帧R,它的记录被数据帧A和新数据帧B之间的特定键合并,条件如下 A的record.createdTime谢谢你们的advanced。

你们可以在DataFrame上使用
join
,以获得想要的结果

用Python

dfA.join(dfB,(dfA.key==dfB.key)和(dfA.createdTime


您也可以按照

重复数据消除如何?您知道解决DF B中是否存在重复记录的方法吗。我只想获取createdTime最大的最新记录。您可以在dfB dfB上使用
dropDuplicates
。dropDuplicates()。此外,如果您想提及列列表,以删除特定列上的重复项。您可以在此链接中参考更多内容此链接适用于Java您可以选择您选择的API和版本