Apache spark pyspark中的行id等效于什么？_Apache Spark_Pyspark_Netezza

Apache spark pyspark中的行id等效于什么？

apache-spark pyspark

Apache spark pyspark中的行id等效于什么？,apache-spark,pyspark,netezza,Apache Spark,Pyspark,Netezza,在传统的DWH过程中，我们在传统的RDBMS中基于rowid查找重复记录并跟踪这些重复记录例如 select pkey_columns, max(rowdid) from table group by pkey_columns 将仅返回与max记录对应的重复记录。即使我们识别重复记录，这也有助于识别/跟踪记录 pySpark中是否有类似的版本？在dwh到pyspark dwh的翻译项目中如何处理这个问题？我建议您使用分析函数库，可能是 ROW_NUMBER() OVER( PARTITION

在传统的DWH过程中，我们在传统的RDBMS中基于rowid查找重复记录并跟踪这些重复记录

例如

select pkey_columns, max(rowdid) from table group by pkey_columns

将仅返回与max记录对应的重复记录。即使我们识别重复记录，这也有助于识别/跟踪记录

pySpark中是否有类似的版本？在dwh到pyspark dwh的翻译项目中如何处理这个问题？

我建议您使用分析函数库，可能是

ROW_NUMBER()
OVER( PARTITION BY group pkey_columns 
    ORDER BY sort columns)

PySpark数据帧是无索引的分布式数据结构。它们没有行id。如果你能用你想要的和你尝试过的更好地解释你的问题，我们仍然可以帮助你如果你想删除重复项，那么你可以使用df1=sqlContext.createDataFrame（rdd1，['column1'，'column2'，'column3'，'column4']）。dropDuplicates（）感谢你的回答。我需要的是使用rowid（->如md5）跟踪记录。我知道这个问题没有直接的答案，但还有什么选择呢。我想保存当前的dwh模型/重建工作。请分享你的想法。