Python 使用pyspark将Spark数据帧中的列转换为数组

Python 使用pyspark将Spark数据帧中的列转换为数组,python,arrays,apache-spark,dataframe,pyspark,Python,Arrays,Apache Spark,Dataframe,Pyspark,如何将Spark数据帧中的列从字符串转换为数组?我需要这个,因为fpgroth算法需要一个数组来创建模型 df = spark.read.csv('kheiro/Stage/Model/itemsets.csv') df.show() 数据: 列的类型: 下面是错误: 在Pyspark for mllib库中,您需要将所有特征转换为单个特征向量。您可以使用向量汇编程序执行相同的操作: 其中inputColsList包含一个列表,可以是要转换的单列,也可以是要转换的多列我指的是用于数据帧的拆分内

如何将Spark数据帧中的列从字符串转换为数组?我需要这个,因为fpgroth算法需要一个数组来创建模型

df = spark.read.csv('kheiro/Stage/Model/itemsets.csv')
df.show()
数据:

列的类型:

下面是错误:


在Pyspark for mllib库中,您需要将所有特征转换为单个特征向量。您可以使用向量汇编程序执行相同的操作:


其中inputColsList包含一个列表,可以是要转换的单列,也可以是要转换的多列

我指的是用于数据帧的拆分内置函数。如果您需要更多帮助,请以文本格式而不是图像格式发布文本输入数据和您尝试过的代码。请不要以截图形式发布您的代码。人们可能想复制并粘贴它,搜索引擎也会很难找到你的帖子,而这不是正确的答案。与许多其他pyspark.ml估计器不同,pyspark.ml.fpm.FPGrowth不接受矢量输入。
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=inputColumnsList,outputCol='features')
assembler.transform(df)