Apache spark ApachePySpark-获取最新记录问题

Apache spark ApachePySpark-获取最新记录问题,apache-spark,pyspark,amazon-emr,Apache Spark,Pyspark,Amazon Emr,我们有大约1亿条记录,已经收集了2周。相同的记录可以出现多次。对于重复记录,我只需要基于“LastModified”日期的最新记录 我试过使用下面的Spark脚本,但它似乎随机获取了值 df.orderBy(unix_timestamp(df["LastModified"], "MM/dd/yyyy hh:mm:ss a").desc()).dropDuplicates(["LastModified"]) 我已经检查了数据,日期格式。。。一切看起来都很好。 有人有什么想法吗 看看这个答案:如果

我们有大约1亿条记录,已经收集了2周。相同的记录可以出现多次。对于重复记录,我只需要基于“LastModified”日期的最新记录

我试过使用下面的Spark脚本,但它似乎随机获取了值

df.orderBy(unix_timestamp(df["LastModified"], "MM/dd/yyyy hh:mm:ss a").desc()).dropDuplicates(["LastModified"])
我已经检查了数据,日期格式。。。一切看起来都很好。
有人有什么想法吗

看看这个答案:如果DF有很多分区,这可能是原因,DF.dropDuplicates可以在partition@TuongLe..你得到答案了吗?是的,请按照上面的链接看这个答案:如果DF有很多分区,这可能是原因,df.dropDuplicates适用于partition@Tuong你得到答案了吗?是的,请点击上面的链接