Apache spark pyspark中的行id等效于什么?

Apache spark pyspark中的行id等效于什么?,apache-spark,pyspark,netezza,Apache Spark,Pyspark,Netezza,在传统的DWH过程中,我们在传统的RDBMS中基于rowid查找重复记录并跟踪这些重复记录 例如 select pkey_columns, max(rowdid) from table group by pkey_columns 将仅返回与max记录对应的重复记录。即使我们识别重复记录,这也有助于识别/跟踪记录 pySpark中是否有类似的版本?在dwh到pyspark dwh的翻译项目中如何处理这个问题?我建议您使用分析函数库,可能是 ROW_NUMBER() OVER( PARTITION

在传统的DWH过程中,我们在传统的RDBMS中基于rowid查找重复记录并跟踪这些重复记录

例如

select pkey_columns, max(rowdid) from table group by pkey_columns
将仅返回与max记录对应的重复记录。即使我们识别重复记录,这也有助于识别/跟踪记录


pySpark中是否有类似的版本?在dwh到pyspark dwh的翻译项目中如何处理这个问题?

我建议您使用分析函数库,可能是

ROW_NUMBER()
OVER( PARTITION BY group pkey_columns 
    ORDER BY sort columns)

PySpark数据帧是无索引的分布式数据结构。它们没有行id。如果你能用你想要的和你尝试过的更好地解释你的问题,我们仍然可以帮助你如果你想删除重复项,那么你可以使用df1=sqlContext.createDataFrame(rdd1,['column1','column2','column3','column4'])。dropDuplicates()感谢你的回答。我需要的是使用rowid(->如md5)跟踪记录。我知道这个问题没有直接的答案,但还有什么选择呢。我想保存当前的dwh模型/重建工作。请分享你的想法。