Apache spark ApachePySpark-获取最新记录问题_Apache Spark_Pyspark_Amazon Emr

Apache spark ApachePySpark-获取最新记录问题

apache-spark pyspark

Apache spark ApachePySpark-获取最新记录问题,apache-spark,pyspark,amazon-emr,Apache Spark,Pyspark,Amazon Emr,我们有大约1亿条记录，已经收集了2周。相同的记录可以出现多次。对于重复记录，我只需要基于“LastModified”日期的最新记录我试过使用下面的Spark脚本，但它似乎随机获取了值 df.orderBy(unix_timestamp(df["LastModified"], "MM/dd/yyyy hh:mm:ss a").desc()).dropDuplicates(["LastModified"]) 我已经检查了数据，日期格式。。。一切看起来都很好。有人有什么想法吗看看这个答案：如果

我们有大约1亿条记录，已经收集了2周。相同的记录可以出现多次。对于重复记录，我只需要基于“LastModified”日期的最新记录

我试过使用下面的Spark脚本，但它似乎随机获取了值

df.orderBy(unix_timestamp(df["LastModified"], "MM/dd/yyyy hh:mm:ss a").desc()).dropDuplicates(["LastModified"])

我已经检查了数据，日期格式。。。一切看起来都很好。

有人有什么想法吗

看看这个答案：如果DF有很多分区，这可能是原因，DF.dropDuplicates可以在partition@TuongLe..你得到答案了吗？是的，请按照上面的链接看这个答案：如果DF有很多分区，这可能是原因，df.dropDuplicates适用于partition@Tuong你得到答案了吗？是的，请点击上面的链接