Hadoop 将org.apache.spark.rdd.rdd[String]转换为并行集合_Hadoop_Apache Spark_Sequence_Rdd

Hadoop 将org.apache.spark.rdd.rdd[String]转换为并行集合

hadoop apache-spark

Hadoop 将org.apache.spark.rdd.rdd[String]转换为并行集合,hadoop,apache-spark,sequence,rdd,Hadoop,Apache Spark,Sequence,Rdd,我的HDFS中有一个csv文件，其中包含一系列产品，如： [56] [85,66,73] [57] [8,16] [25,96,22,17] [83,61] 我试图在我的代码中应用关联规则算法。为此，我需要运行以下命令： scala> val data = sc.textFile("/user/cloudera/data") data: org.apache.spark.rdd.RDD[String] = /user/cloudera/data MapPartitionsRDD[294]

我的HDFS中有一个csv文件，其中包含一系列产品，如：

[56]
[85,66,73]
[57]
[8,16]
[25,96,22,17]
[83,61]

我试图在我的代码中应用关联规则算法。为此，我需要运行以下命令：

scala> val data = sc.textFile("/user/cloudera/data")
data: org.apache.spark.rdd.RDD[String] = /user/cloudera/data MapPartitionsRDD[294] at textFile at <console>:38

scala> val distData = sc.parallelize(data)

scala>val data=sc.textFile（“/user/cloudera/data”）
data:org.apache.spark.rdd.rdd[String]=/user/cloudera/data-MapPartitionsRDD[294]位于文本文件38处
scala>val distData=sc.parallelize（数据）

但当我提交此文件时，我得到了以下错误：

<console>:40: error: type mismatch;
 found   : org.apache.spark.rdd.RDD[String]
 required: Seq[?]
Error occurred in an application involving default arguments.
         val distData = sc.parallelize(data)

：40:错误：类型不匹配；
找到：org.apache.spark.rdd.rdd[String]
必填项：Seq[？]
涉及默认参数的应用程序中出错。
val distData=sc.parallelize（数据）

如何在序列集合中转换RDD[String]

非常感谢

你所面对的很简单。错误将显示给您

要在spark中并行化一个对象，您应该添加一个

Seq（）

对象。您正在尝试添加一个

RDD[String]

对象

RDD已经并行化，textFile方法在集群中按行并行化文件元素

您可以在此处查看方法说明：

你面对的是简单的。错误将显示给您

要在spark中并行化一个对象，您应该添加一个

Seq（）

对象。您正在尝试添加一个

RDD[String]

对象

RDD已经并行化，textFile方法在集群中按行并行化文件元素

您可以在此处查看方法说明：