Python 使用pyspark将Spark数据帧中的列转换为数组_Python_Arrays_Apache Spark_Dataframe_Pyspark

Python 使用pyspark将Spark数据帧中的列转换为数组

python arrays apache-spark dataframe pyspark

Python 使用pyspark将Spark数据帧中的列转换为数组,python,arrays,apache-spark,dataframe,pyspark,Python,Arrays,Apache Spark,Dataframe,Pyspark,如何将Spark数据帧中的列从字符串转换为数组？我需要这个，因为fpgroth算法需要一个数组来创建模型 df = spark.read.csv('kheiro/Stage/Model/itemsets.csv') df.show() 数据：列的类型：下面是错误：在Pyspark for mllib库中，您需要将所有特征转换为单个特征向量。您可以使用向量汇编程序执行相同的操作：其中inputColsList包含一个列表，可以是要转换的单列，也可以是要转换的多列我指的是用于数据帧的拆分内

如何将Spark数据帧中的列从字符串转换为数组？我需要这个，因为fpgroth算法需要一个数组来创建模型

df = spark.read.csv('kheiro/Stage/Model/itemsets.csv')
df.show()

数据：

列的类型：

下面是错误：

在Pyspark for mllib库中，您需要将所有特征转换为单个特征向量。您可以使用向量汇编程序执行相同的操作：

其中inputColsList包含一个列表，可以是要转换的单列，也可以是要转换的多列

我指的是用于数据帧的拆分内置函数。如果您需要更多帮助，请以文本格式而不是图像格式发布文本输入数据和您尝试过的代码。请不要以截图形式发布您的代码。人们可能想复制并粘贴它，搜索引擎也会很难找到你的帖子，而这不是正确的答案。与许多其他pyspark.ml估计器不同，pyspark.ml.fpm.FPGrowth不接受矢量输入。

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=inputColumnsList,outputCol='features')
assembler.transform(df)