Hadoop 将org.apache.spark.rdd.rdd[String]转换为并行集合

Hadoop 将org.apache.spark.rdd.rdd[String]转换为并行集合,hadoop,apache-spark,sequence,rdd,Hadoop,Apache Spark,Sequence,Rdd,我的HDFS中有一个csv文件,其中包含一系列产品,如: [56] [85,66,73] [57] [8,16] [25,96,22,17] [83,61] 我试图在我的代码中应用关联规则算法。为此,我需要运行以下命令: scala> val data = sc.textFile("/user/cloudera/data") data: org.apache.spark.rdd.RDD[String] = /user/cloudera/data MapPartitionsRDD[294]

我的HDFS中有一个csv文件,其中包含一系列产品,如:

[56]
[85,66,73]
[57]
[8,16]
[25,96,22,17]
[83,61]
我试图在我的代码中应用关联规则算法。为此,我需要运行以下命令:

scala> val data = sc.textFile("/user/cloudera/data")
data: org.apache.spark.rdd.RDD[String] = /user/cloudera/data MapPartitionsRDD[294] at textFile at <console>:38

scala> val distData = sc.parallelize(data)
scala>val data=sc.textFile(“/user/cloudera/data”)
data:org.apache.spark.rdd.rdd[String]=/user/cloudera/data-MapPartitionsRDD[294]位于文本文件38处
scala>val distData=sc.parallelize(数据)
但当我提交此文件时,我得到了以下错误:

<console>:40: error: type mismatch;
 found   : org.apache.spark.rdd.RDD[String]
 required: Seq[?]
Error occurred in an application involving default arguments.
         val distData = sc.parallelize(data)
:40:错误:类型不匹配;
找到:org.apache.spark.rdd.rdd[String]
必填项:Seq[?]
涉及默认参数的应用程序中出错。
val distData=sc.parallelize(数据)
如何在序列集合中转换RDD[String]


非常感谢

你所面对的很简单。错误将显示给您

要在spark中并行化一个对象,您应该添加一个
Seq()
对象。您正在尝试添加一个
RDD[String]
对象

RDD已经并行化,textFile方法在集群中按行并行化文件元素

您可以在此处查看方法说明:


你面对的是简单的。错误将显示给您

要在spark中并行化一个对象,您应该添加一个
Seq()
对象。您正在尝试添加一个
RDD[String]
对象

RDD已经并行化,textFile方法在集群中按行并行化文件元素

您可以在此处查看方法说明: