Apache spark PySpark没有火花能工作吗?

Apache spark PySpark没有火花能工作吗?,apache-spark,pyspark,Apache Spark,Pyspark,我已使用安装PySpark单机版/本地版(在Windows上) 我有点惊讶,我已经可以在命令行中运行pyspark,或者在Jupyter笔记本中使用它,而且它不需要正确的Spark安装(例如,我不必执行本教程中的大部分步骤) 我遇到的大多数教程都说需要“在安装PySpark之前安装Spark”。这与我认为PySpark基本上是Spark的包装器的观点是一致的。但也许我错了-有人能解释一下: 这两种技术之间的确切联系是什么 为什么安装PySpark足以使其运行?它是否真的在引擎盖下安装了Spar

我已使用安装PySpark单机版/本地版(在Windows上)

我有点惊讶,我已经可以在命令行中运行
pyspark
,或者在Jupyter笔记本中使用它,而且它不需要正确的Spark安装(例如,我不必执行本教程中的大部分步骤)

我遇到的大多数教程都说需要“在安装PySpark之前安装Spark”。这与我认为PySpark基本上是Spark的包装器的观点是一致的。但也许我错了-有人能解释一下:

  • 这两种技术之间的确切联系是什么
  • 为什么安装PySpark足以使其运行?它是否真的在引擎盖下安装了Spark?如果是,在哪里
  • 如果只安装PySpark,是否有遗漏的内容(例如,我找不到包含启动历史服务器脚本的
    sbin
    文件夹)
,执行
pip安装pyspark
将安装Spark

如果你打算使用Pyspark,这显然是最简单的入门方法


在我的系统上,Spark安装在我的虚拟环境(miniconda)中,位于
lib/python3.6/site packages/pyspark/jars

由pip安装的pyspark是full Spark的子文件夹。您可以在
spark-3.0.0-bin-hadoop3.2/python/PySpark
中找到PySpark-python文件的大部分内容。所以,如果您想使用java或scala接口,并使用hadoop部署分布式系统,您必须从下载完整的Spark并安装它。

PySpark安装了Spark。如果通过pip3安装,您可以通过
pip3 show pyspark
找到它。例如,对我来说,它位于
~/.local/lib/python3.8/site packages/pyspark


这是一个新版本,因此不能像完整的Spark安装那样用于管理群集。

pyspark软件包是Spark安装,尽管您可能需要单独安装Java。谢谢Kirk。罐子基本上是“整个火花”吗?或者在安装pyspark时是否有其他遗漏(例如sbin文件夹中的内容)?否,这是Spark,您可以运行scala shell(
Spark shell
)并提交JAR以供执行(
Spark submit
)。当然,它是独立配置中的单个节点——如果要扩展,需要配置集群。@KirkBroadhurst这并没有回答@Ferrard评论中的问题。miniconda环境中的Spark目录缺少
sbin
子目录。conda是否也安装pypark安装Spark,还是应该使用
pip
pip install pyspark