Python 如何在PySpark数据框架中创建一个非唯一列作为索引？_Python_Pyspark_Apache Spark Sql

Python 如何在PySpark数据框架中创建一个非唯一列作为索引？

python pyspark

Python 如何在PySpark数据框架中创建一个非唯一列作为索引？,python,pyspark,apache-spark-sql,Python,Pyspark,Apache Spark Sql,我有一个Dataframe:df，它有一个名为：date\u index的非唯一列日期索引采用如下所示的值。我需要把这个列作为df的索引日期指数值：2018年6月27日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月29日7:45 我想将下面的python命令转换为它的PySpark等效命令 df.set_index('date_index',inplace=True) 进一步澄清：我希望使用pyspark命令在我的数据帧

我有一个Dataframe:df，它有一个名为：date\u index的非唯一列

日期索引采用如下所示的值。我需要把这个列作为df的索引

日期指数值：2018年6月27日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月28日7:45、2018年6月29日7:45

我想将下面的python命令转换为它的PySpark等效命令

df.set_index('date_index',inplace=True)

进一步澄清：我希望使用pyspark命令在我的数据帧中进行以下更改

之前的数据帧：

数据帧之后：

这在PySpark中是不可能的。

您是否在Spark中寻找与熊猫索引功能等效的功能？恐怕Spark没有这个。在哪种情况下你需要它？如果不是等效的，有没有办法使用pyspark制作“date_index”列，数据帧df的索引？我相信@pfc想说（Py）Spark没有索引的概念。因此，您正在寻找的内容有点不清楚，需要进一步澄清，以获得可能的答案，从而提供有意义的建议。我在python中执行set_索引之前和set_索引之后添加了数据帧的图片。我只需要使用pyspark获得相同的最终结果。恳请告知