Python Pyspark dataframe将列表添加为列

Python Pyspark dataframe将列表添加为列,python,pyspark,Python,Pyspark,我有一个python列表(p_list),其中0和1的元素数量与只有一列的spark数据帧一样多(所有元素都类似于:'imaj7felb438l6hk',…) 我正试图将此列表作为列添加到spark数据框中(df_cookie)。但是没有钥匙。到目前为止,我试过: 1) 将df_cookie转换为rdd是不起作用的,因为它太大了,而且内存不足 2) 将df_cookie转换为熊猫df,不起作用(原因与1相同)) 3) 将列表转换为一个新的数据帧,并使用单调递增的\u id(),以获得一个公共键并

我有一个python列表(
p_list
),其中0和1的元素数量与只有一列的spark数据帧一样多(所有元素都类似于:
'imaj7felb438l6hk'
,…)

我正试图将此列表作为列添加到spark数据框中(
df_cookie
)。但是没有钥匙。到目前为止,我试过:

1) 将
df_cookie
转换为rdd是不起作用的,因为它太大了,而且内存不足

2) 将
df_cookie
转换为熊猫df,不起作用(原因与1相同))

3) 将列表转换为一个新的数据帧,并使用
单调递增的\u id()
,以获得一个公共键并链接两者。这也不起作用,因为每个数据帧中都有不同的ID

有什么建议吗

test_list = [i for i in range(cookie.count())]
res = spark.createDataFrame(test_list, IntegerType()).toDF('ind')
df_res = res.withColumn('row', monotonically_increasing_id())
df_res.show(5)
+---+---+
|ind|row|
+---+---+
|  0|  0|
|  1|  1|
|  2|  2|
|  3|  3|
|  4|  4|
+---+---+

df_cookie = cookie.withColumn('row', monotonically_increasing_id())
df_cookie.show(5)
+--------------------+-----------+
|              cookie|        row|
+--------------------+-----------+
|    imaj7felb438l6hk|68719476736|
|hk3l641k5r1m2umv2...|68719476737|
|    ims1arqgxczr6rfm|68719476738|
|2t4rlplypc1ks1hnf...|68719476739|
|17gpx1x3j5eq03dpw...|68719476740|
+--------------------+-----------+
期望输出:

+--------------------+-----------+
|              cookie|        ind|
+--------------------+-----------+
|    imaj7felb438l6hk|          0|
|hk3l641k5r1m2umv2...|          1|
|    ims1arqgxczr6rfm|          2|
|2t4rlplypc1ks1hnf...|          3|
|17gpx1x3j5eq03dpw...|          4|
+--------------------+-----------+

请提供您的数据样本,以及您迄今为止尝试过的代码和结果,否则无法提供帮助;看,我刚刚编辑了我的问题,包括一些代码。很好,但仍然缺少期望的结果-提供一个例子,说明你期望的结果是什么希望现在就足够了。不确定这是否可能-看;从中可以看出,“生成的ID保证是单调递增的、唯一的,但不是连续的。”请提供您的数据样本,以及您迄今为止尝试过的代码&结果,否则无法提供帮助;看,我刚刚编辑了我的问题,包括一些代码。很好,但仍然缺少期望的结果-提供一个例子,说明你期望的结果是什么希望现在就足够了。不确定这是否可能-看;从中可以看出,“生成的ID保证是单调递增和唯一的,但不是连续的。”