Python 我在Spark中创建简单RDD时出错_Python_Apache Spark_Rdd

Python 我在Spark中创建简单RDD时出错

python apache-spark

Python 我在Spark中创建简单RDD时出错,python,apache-spark,rdd,Python,Apache Spark,Rdd,我正在使用Jupyter笔记本，刚开始学习Apache spark，但在创建简单RDD时出错： sc.parallelize([2, 3, 4]).count() 错误是：parallelize（）缺少1个必需的位置参数：“c” 每种类型都会发生这种情况，比如如果我尝试textFile（“”），就会发现缺少位置参数。我的sparkcontext是sc，有人能帮我吗 rdd = sc.parallelize([2, 3, 4]) c = rdd.count() count（）方法返回一个长类型

我正在使用Jupyter笔记本，刚开始学习Apache spark，但在创建简单RDD时出错：

sc.parallelize([2, 3, 4]).count()

错误是：

parallelize（）缺少1个必需的位置参数：“c”

每种类型都会发生这种情况，比如如果我尝试

textFile（“”

），就会发现缺少位置参数。我的sparkcontext是sc，有人能帮我吗

rdd = sc.parallelize([2, 3, 4])
c = rdd.count()

count（）方法返回一个长类型值，而不是rdd。

您必须定义Spark上下文和并行化的片数。例如：

import pyspark as sp

nSlices = 10
sc = sp.SparkContext(appName='myApp')
rdd = sc.parallelize([2,3,4],nSlices)

# [...]
sc.close()

别忘了使用spark submit调用您的程序，您必须初始化SparkContext

下面是来自的示例代码

只需添加这三行代码。这将解决问题

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))

我遇到了同样的问题。SparkContex已经由pyspark创建。以下方法可以解决此问题：

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))

你能补充一些描述吗

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))