scala数据帧到RDD[数组[字符串]]_Scala_Apache Spark

scala数据帧到RDD[数组[字符串]]

scala apache-spark

scala数据帧到RDD[数组[字符串]],scala,apache-spark,Scala,Apache Spark,如何转换具有多列的dataframe 我可以得到RDD[org.apache.spark.sql.Row]，但我需要一些可以用于org.apache.spark.mllib.fpm.FPGrowth的东西，ei RDD[Array[String]] 如何转换 df.head org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..] df.printSchema |-- source: stri

如何转换具有多列的dataframe 我可以得到RDD[org.apache.spark.sql.Row]，但我需要一些可以用于org.apache.spark.mllib.fpm.FPGrowth的东西，ei RDD[Array[String]] 如何转换

df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]

df.printSchema    
 |-- source: string (nullable = true)
 |-- b1: string (nullable = true)
 |-- b2: string (nullable = true)
 |-- b3: long (nullable = true)
 |-- amount: decimal(30,2) (nullable = true)
and so on

谢谢，这个问题很模糊，但一般来说，您可以通过序列将RDD从行更改为数组。下面的代码将获取RDD中的所有列，将它们转换为字符串，并将它们作为数组返回

df.first
res1: org.apache.spark.sql.Row = [blah1,blah2]
df.map { _.toSeq.map {_.toString}.toArray }.first
res2: Array[String] = Array(blah1, blah2)

但是，这可能不足以让它以您想要的方式使用MLib，因为您没有提供足够的详细信息，但这只是一个开始。

如果向我们展示RDD的内容和预期输出，它可能会很有用：）它仍然没有意义。这里到底是什么代表了一个篮子？一般来说，它不能作为

FPGrowth

的输入。您至少应该使用

distinct

跟随

到阵列

，或者将值与列名连接以确保唯一性。