Python 我在Spark中创建简单RDD时出错

Python 我在Spark中创建简单RDD时出错,python,apache-spark,rdd,Python,Apache Spark,Rdd,我正在使用Jupyter笔记本,刚开始学习Apache spark,但在创建简单RDD时出错: sc.parallelize([2, 3, 4]).count() 错误是:parallelize()缺少1个必需的位置参数:“c” 每种类型都会发生这种情况,比如如果我尝试textFile(“”),就会发现缺少位置参数。我的sparkcontext是sc,有人能帮我吗 rdd = sc.parallelize([2, 3, 4]) c = rdd.count() count()方法返回一个长类型

我正在使用Jupyter笔记本,刚开始学习Apache spark,但在创建简单RDD时出错:

sc.parallelize([2, 3, 4]).count()
错误是:
parallelize()缺少1个必需的位置参数:“c”
每种类型都会发生这种情况,比如如果我尝试
textFile(“”
),就会发现缺少位置参数。我的sparkcontext是sc,有人能帮我吗

rdd = sc.parallelize([2, 3, 4])
c = rdd.count()

count()方法返回一个长类型值,而不是rdd。

您必须定义Spark上下文和并行化的片数。例如:

import pyspark as sp

nSlices = 10
sc = sp.SparkContext(appName='myApp')
rdd = sc.parallelize([2,3,4],nSlices)

# [...]
sc.close()

别忘了使用spark submit调用您的程序,您必须初始化SparkContext

下面是来自的示例代码


只需添加这三行代码。这将解决问题

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))

我遇到了同样的问题。SparkContex已经由pyspark创建。以下方法可以解决此问题:

from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))

你能补充一些描述吗
from pyspark import SparkConf
from pyspark import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))