Apache spark 为初学者安装pyspark

Apache spark 为初学者安装pyspark,apache-spark,pyspark,installation,Apache Spark,Pyspark,Installation,我目前正在数据营学习pyspark课程,现在想开始尝试使用pyspark在我自己的计算机上构建一些我自己的项目。然而,我对spark/pysaprk本身的安装以及如何在jypter笔记本中运行感到非常困惑 我在youtube上看过关于安装的视频,比如edurkea,它似乎通过创建一台虚拟机并将其连接到另一台虚拟机来进行安装,而我不想要的只是在我的笔记本电脑上本地安装pysaprk 我还遵循了此链接中的安装说明: 当我在终端中运行pyspark命令时,我得到了no命令响应 我查看了spark站点

我目前正在数据营学习pyspark课程,现在想开始尝试使用pyspark在我自己的计算机上构建一些我自己的项目。然而,我对spark/pysaprk本身的安装以及如何在jypter笔记本中运行感到非常困惑

我在youtube上看过关于安装的视频,比如edurkea,它似乎通过创建一台虚拟机并将其连接到另一台虚拟机来进行安装,而我不想要的只是在我的笔记本电脑上本地安装pysaprk

我还遵循了此链接中的安装说明:

当我在终端中运行pyspark命令时,我得到了no命令响应

我查看了spark站点上的文档,我发现它对新手不太友好,我想知道是否有人可以链接到这个安装的易于遵循的指南

我目前的操作系统是ubuntu的最新版本,目前我正在学习如何使用shell和bash脚本,但这一切都是非常新的,我看到的很多东西开始让我困惑

任何链接、建议都会非常有用

有一种方法可以使设置变得非常简单。给你。安装并运行docker后,输入以下命令行将启动jupyter笔记本环境,您可以在其中运行pyspark
docker run-it-p 8888:8888 jupyter/pyspark notebook


但是,这个命令将挂载一个临时文件系统,这使得读取/保存数据变得困难。要将环境指向您的文件系统,请运行
docker run-it--rm-p 8888:8888-p 4040:4040-p 4041:4041-v/Users/your/path:/home/jovyan jupyter/pyspark notebook

我尝试了几种方法安装pyspark,但最简单的安装方法是使用conda

如果您的笔记本电脑上安装了anaconda(miniconda),请尝试按以下方式安装

conda install pyspark
conda install -c anaconda openjdk  
#anaconda channel has v.8 and it works best, and do not install from conda-forge for it's version 11 and it crashes
添加SPARK_HOME变量:修改此变量并将其复制粘贴到.bashrc文件中

export SPARK\u HOME=“/Users/YOUR\u USER\u NAME/miniconda3/lib/python3.7/site packages/pyspark”


这对我有用。您可能想安装
findspark
,这在conda中很容易找到

Spark也可以在Windows上运行。为什么需要学习shell脚本?