Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/340.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/firebase/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将Spark数据帧列从矢量转换为集合?_Python_Set_Pyspark_Data Conversion_Pyspark Sql - Fatal编程技术网

Python 如何将Spark数据帧列从矢量转换为集合?

Python 如何将Spark数据帧列从矢量转换为集合?,python,set,pyspark,data-conversion,pyspark-sql,Python,Set,Pyspark,Data Conversion,Pyspark Sql,我需要处理一个数据集来识别频繁的项目集。所以输入列必须是一个向量。原始列是一个字符串,其中的项用逗号分隔,因此我执行了以下操作: functions.split(out_1['skills'], ',') 问题是,对于某些行,我在技能中有重复的值,这会在尝试识别频繁项集时导致错误 我想将向量转换为一个集合,以删除重复的元素。大概是这样的: functions.to_set(functions.split(out_1['skills'], ',')) 但是我找不到一个函数来将一列从向量转换为集

我需要处理一个数据集来识别频繁的项目集。所以输入列必须是一个向量。原始列是一个字符串,其中的项用逗号分隔,因此我执行了以下操作:

functions.split(out_1['skills'], ',')
问题是,对于某些行,我在
技能中有重复的值,这会在尝试识别频繁项集时导致错误

我想将向量转换为一个集合,以删除重复的元素。大概是这样的:

functions.to_set(functions.split(out_1['skills'], ','))
但是我找不到一个函数来将一列从向量转换为集合,也就是说,没有
到_set
函数


如何实现我想要的,即从向量中删除重复的元素?

您可以使用
函数将python中的
set
函数转换为udf。udf(set)
然后将其应用于数组列:

df.show()
+-------+
| skills|
+-------+
|a,a,b,c|
|  a,b,c|
|c,d,e,e|
+-------+

import pyspark.sql.functions as F
df.withColumn("unique_skills", F.udf(set)(F.split(df.skills, ","))).show()
+-------+-------------+
| skills|unique_skills|
+-------+-------------+
|a,a,b,c|    [a, b, c]|
|  a,b,c|    [a, b, c]|
|c,d,e,e|    [c, d, e]|
+-------+-------------+