Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 我们需要启动spark来运行pyspark吗?_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 我们需要启动spark来运行pyspark吗?

Apache spark 我们需要启动spark来运行pyspark吗?,apache-spark,pyspark,Apache Spark,Pyspark,这可能是一个新手问题。这是我的设想 我在我的机器上安装了一个火花。我还没有启动它(使用sbin/start-all.sh或sbin文件夹中的任何其他脚本)。 然后我打开了pyspark(使用bin/pyspark),它启动时没有任何错误。 我尝试运行示例程序: >>> var=sc.textFile('/home/rushikesh/sam.txt') >>> var.count() 它没有任何错误 问题1:执行pyspark/spark shell程序不

这可能是一个新手问题。这是我的设想

我在我的机器上安装了一个火花。我还没有启动它(使用sbin/start-all.sh或sbin文件夹中的任何其他脚本)。 然后我打开了pyspark(使用bin/pyspark),它启动时没有任何错误。 我尝试运行示例程序:

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count() 
它没有任何错误

问题1:执行pyspark/spark shell程序不需要运行spark吗

问题2:还是只有Spark提交需要Spark启动

如果我遗漏了什么,请澄清。

,它提供了嵌入在单个JVM中的非分布式测试和开发环境

这适用于
spark shell
pyspark
spark submit
和其他类似选项

sbin
脚本用于启动Spark自己的,通常在分布式环境中。如果您使用这些,还必须正确配置Spark master URL


然而,这只是Spark可以使用的众多受支持(和第三方)群集管理器中的一个。

Pyspark是一个用于Spark的Python API,它允许您绑定Python的简单性和Apache Spark的强大功能,以驯服大数据。要使用PySpark,您必须在计算机上安装python和apachespark。使用pyspark时,运行pyspark就足够了

要在您的计算机上本地运行pyspark,请执行以下操作:

pyspark2——主本地[*]

要在windows上安装pyspark,请参阅此链接。

您启动了
pyspark
它本质上是围绕
spark
的python包装器,如果启动
bin/spark shell
它将打开一个
spark/scala控制台
我不理解下行投票背后的原因。如果我能理解这个错误,这样下次我就可以改进了,这将是非常有帮助的downvote@pissall当前位置此评论是针对那个提出了一个非常好的问题的人或管理员的。PySpark有一个自包含的SPRK,它不需要任何主工作节点来运行。所以你是说,对于spark的非本地模式,我需要从sbin脚本启动spark,是吗?