入门-Spark、IPython笔记本电脑和pyspark_Python_Hadoop_Apache Spark_Ipython Notebook_Pyspark

入门-Spark、IPython笔记本电脑和pyspark

python hadoop apache-spark pyspark

入门-Spark、IPython笔记本电脑和pyspark,python,hadoop,apache-spark,ipython-notebook,pyspark,Python,Hadoop,Apache Spark,Ipython Notebook,Pyspark,我想了解如何设置一切，使iPython笔记本和pyspark能够正常工作我目前有一个ec2实例如果我错了，请告诉我，但我认为我可以使用以下两种方法： ./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster （）或者这个： aws emr create-cluster

我想了解如何设置一切，使iPython笔记本和pyspark能够正常工作

我目前有一个ec2实例

如果我错了，请告诉我，但我认为我可以使用以下两种方法：

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

（）

或者这个：

aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

（）

这两者之间真的有很大区别吗

要编写和执行脚本，我应该在主节点上，对吗

所以，我用来运行Spark的ec2实例不会被使用

（我必须在主节点上安装ipython笔记本？）

提前感谢你的帮助

（我找过教程，但没有找到我想要的

你知道好的吗？

你提到的第一个教程是我迄今为止发现的最好的。我不确定你提到的两种方法之间的区别

我使用

/spark-ec2

成功地在ec2上构建了一个spark集群。要让它与IPython协同工作，需要额外安装几次

首先使用

/spark-ec2

过程启动集群。我在以下方面取得了成功：

在主节点和所有工作节点上安装Anaconda和PY4J。Anaconda应该设置在路径的前面（例如path=/home/ec2 user/anaconda2/bin:$path）

接下来，ssh到master，然后

$cd/root/spark

运行：

MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark

MASTER=spark://:7077 PYSPARK\u PYTHON=~/anaconda2/bin/PYTHON PYSPARK\u DRIVER\u PYTHON=ipython PYSPARK\u DRIVER\u PYTHON\u OPTS='notebook--ip=“*”./bin/PYSPARK

访问：8888以访问笔记本。如果您希望这是公共的，那么为master打开安全组中的8888端口。否则，创建一个ssh隧道