Apache spark Spark-如何为countVectorizer模型创建一个Spark数据帧，其中一列包含值数组_Apache Spark_Spark Dataframe_Countvectorizer

Apache spark Spark-如何为countVectorizer模型创建一个Spark数据帧，其中一列包含值数组

apache-spark

Apache spark Spark-如何为countVectorizer模型创建一个Spark数据帧，其中一列包含值数组,apache-spark,spark-dataframe,countvectorizer,Apache Spark,Spark Dataframe,Countvectorizer,我正在尝试执行Spark的countVectorizer模型。作为这个要求的一部分，我正在读取一个csv文件，并从中创建一个数据帧（inp_DF）它有3列，如下所示 +--------------+--------+-------+ | State|Zip Code|Country| +--------------+--------+-------+ | kentucky| 40205| us| | indiana| 47305|

我正在尝试执行Spark的countVectorizer模型。作为这个要求的一部分，我正在读取一个csv文件，并从中创建一个数据帧（inp_DF）

它有3列，如下所示

+--------------+--------+-------+
|         State|Zip Code|Country|
+--------------+--------+-------+
|      kentucky|   40205|     us|
|       indiana|   47305|     us|
|greater london|    sw15|     gb|
|    california|   92707|     us|
|      victoria|    3000|     au|
|         paris|   75001|     fr|
|      illinois|   60608|     us|
|     minnesota|   55405|     us|
|    california|   92688|     us|
+--------------+--------+-------+

我需要在同一数据帧中创建第4列，该数据帧包含所有这3列的值数组，例如

|      kentucky|   40205|     us|   "kentucky","40205","us"
|       indiana|   47305|     us|   "indiana","47305","us"
|greater london|    sw15|     gb|   "greater london","sw15","gb"
|    california|   92707|     us|   "california","92707","us"
|      victoria|    3000|     au|   "victoria","3000","au"
|         paris|   75001|     fr|   "paris","75001","fr"
|      illinois|   60608|     us|   "illinois","60608","us"
|     minnesota|   55405|     us|   "minnesota","55405","us"
|    california|   92688|     us|   "california","92688","us"

问题1：有没有像.concat这样的简单命令可以实现这一点？

之所以需要此数组，是因为countVectorizer模型的输入应该是包含值数组的列。它不应是以下错误消息中提到的字符串数据类型：

线程“main”java.lang.IllegalArgumentException中的异常：要求失败：列状态的类型必须等于以下类型：[ArrayType（StringType，true）， ArrayType（StringType，false）]，但实际上是StringType类型的。在 scala.Predef$.require（Predef.scala:224）位于 org.apache.spark.ml.util.SchemaUtils$.checkColumnTypes（SchemaUtils.scala:58）在 org.apache.spark.ml.feature.CountVectorizerParams$class.ValidateAndTransferorMschema（CountVectorizer.scala:75）在 org.apache.spark.ml.feature.CountVectorizer.validateAndTransferorMschema（CountVectorizer.scala:123）在 org.apache.spark.ml.feature.CountVectorizer.transformSchema（CountVectorizer.scala:188）在 org.apache.spark.ml.PipelineStage.transformSchema（Pipeline.scala:74）在 org.apache.spark.ml.feature.CountVectorizer.fit（CountVectorizer.scala:155）在 org.apache.spark.examples.ml.CountVectorizerExample$.main（CountVectorizerExample.scala:54）在 org.apache.spark.examples.ml.CountVectorizerExample.main（CountVectorizerExample.scala）位于的sun.reflect.NativeMethodAccessorImpl.invoke0（本机方法） invoke（NativeMethodAccessorImpl.java:62）在 sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）位于java.lang.reflect.Method.invoke（Method.java:498） com.intellij.rt.execution.application.AppMain.main（AppMain.java:147） Java HotSpot（TM）客户端VM警告：忽略选项MaxPermSize=300m；支持在8.0中被删除
我试图从这3列输入数据帧创建一个数组，但数组元素被括在方括号[]内
下面给出了示例代码片段供您参考

// Read Input Dataset for countVectorizer Logic val inp_data = spark.read.format("com.databricks.spark.csv").option("header", "True").option("inferSchema", "true") .option("treatEmptyValuesAsNulls", "true").option("nullValue", "") .load("Input.csv") // Creating a Spark Dataframe from the Input Data val inp_DF = inp_data.toDF() // Creating an array from Spark Dataframe Columns val inp_array = inp_DF.select("State","Zip Code","Country").collect() println(inp_array.mkString(",")) // fit a CountVectorizerModel from the corpus val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("State") .setOutputCol("features") .setVocabSize(4) .setMinDF(2) .fit(inp_DF)
问题2：如何从这些数组元素中删除方括号[]，并使用数组的值在数据框中创建新列？

问题3：我们能否将单列值作为输入提供给countVectorizer模型，并将特征作为输出？您可以使用
数组函数创建数组列 import org.apache.spark.sql.functions._ val inp_array = inp_DF.withColumn("arrayColumn", array("State", "Zip Code", "Country")) val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("arrayColumn") .setOutputCol("features") .setVocabSize(4) .setMinDF(2) .fit(inp_array) 这将为您提供如下输出： +-------------+--------+-------+-------------------------+ |State |Zip Code|Country|arrayColumn | +-------------+--------+-------+-------------------------+ |kentucky |40205 |us |[kentucky, 40205, us] | |indiana |47305 |us |[indiana, 47305, us] | |greaterlondon|sw15 |gb |[greaterlondon, sw15, gb]| |california |92707 |us |[california, 92707, us] | |victoria |3000 |au |[victoria, 3000, au] | |paris |75001 |fr |[paris, 75001, fr] | |illinois |60608 |us |[illinois, 60608, us] | |minnesota |55405 |us |[minnesota, 55405, us] | |california |92688 |us |[california, 92688, us] | +-------------+--------+-------+-------------------------+ 您可以在CountVectorizerModel 中使用此dataframe ，如下所示 import org.apache.spark.sql.functions._ val inp_array = inp_DF.withColumn("arrayColumn", array("State", "Zip Code", "Country")) val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("arrayColumn") .setOutputCol("features") .setVocabSize(4) .setMinDF(2) .fit(inp_array) 这回答了你的前两个问题现在回答你的第三个问题是您只能在CountVectorizerModel 中使用一列，但为此，您需要将该列转换为ArrayType（StringType，true），这可以通过使用上述array 函数来完成假设您想使用CountVectorizerModel 中的State 列。然后，您可以通过执行以下操作将State 列的数据类型更改为array val single_arrayDF = inp_DF.withColumn("State", array("State")) 并将其用作 val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("State") .setOutputCol("features") .setVocabSize(4) .setMinDF(2) .fit(single_arrayDF) 我希望答案是有帮助的