Dataframe 如何添加连续';标识';列到Pyspark中的数据帧,而不是单调递增的id()?

Dataframe 如何添加连续';标识';列到Pyspark中的数据帧,而不是单调递增的id()?,dataframe,pyspark,pyspark-sql,continuous,ident,Dataframe,Pyspark,Pyspark Sql,Continuous,Ident,我有一个数据帧'df',我想添加一个'Ident'数字列,其中的值是连续的。我尝试使用单调递增的\u id(),但值不是连续的。正如它的描述所说:“生成的ID保证是单调递增和唯一的,但不是连续的。” 所以,我的问题是,我怎么做呢?你可以试试这样的东西 df = df.rdd.zipWithIndex().map(lambda x: [x[1]] + [y for y in x[0]]).toDF(['Ident']+df.columns) 这将为您提供第一列作为您的标识符,它将具有从0到N-1

我有一个数据帧'df',我想添加一个'Ident'数字列,其中的值是连续的。我尝试使用单调递增的\u id(),但值不是连续的。正如它的描述所说:“生成的ID保证是单调递增和唯一的,但不是连续的。”


所以,我的问题是,我怎么做呢?

你可以试试这样的东西

df = df.rdd.zipWithIndex().map(lambda x: [x[1]] + [y for y in x[0]]).toDF(['Ident']+df.columns)

这将为您提供第一列作为您的标识符,它将具有从0到N-1的连续值,其中N是df中的记录总数。

请提供您已经尝试过的代码示例以及您得到的结果