Python 如何在PySpark数据框架中创建一个非唯一列作为索引?

Python 如何在PySpark数据框架中创建一个非唯一列作为索引?,python,pyspark,apache-spark-sql,Python,Pyspark,Apache Spark Sql,我有一个Dataframe:df,它有一个名为:date\u index的非唯一列 日期索引采用如下所示的值。我需要把这个列作为df的索引 日期指数值:2018年6月27日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月29日7:45 我想将下面的python命令转换为它的PySpark等效命令 df.set_index('date_index',inplace=True) 进一步澄清: 我希望使用pyspark命令在我的数据帧

我有一个Dataframe:df,它有一个名为:date\u index的非唯一列

日期索引采用如下所示的值。我需要把这个列作为df的索引

日期指数值:2018年6月27日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月29日7:45

我想将下面的python命令转换为它的PySpark等效命令

df.set_index('date_index',inplace=True)
进一步澄清: 我希望使用pyspark命令在我的数据帧中进行以下更改

之前的数据帧:

数据帧之后:

这在PySpark中是不可能的。

您是否在Spark中寻找与熊猫索引功能等效的功能?恐怕Spark没有这个。在哪种情况下你需要它?如果不是等效的,有没有办法使用pyspark制作“date_index”列,数据帧df的索引?我相信@pfc想说(Py)Spark没有索引的概念。因此,您正在寻找的内容有点不清楚,需要进一步澄清,以获得可能的答案,从而提供有意义的建议。我在python中执行set_索引之前和set_索引之后添加了数据帧的图片。我只需要使用pyspark获得相同的最终结果。恳请告知