入门-Spark、IPython笔记本电脑和pyspark
我想了解如何设置一切,使iPython笔记本和pyspark能够正常工作 我目前有一个ec2实例 如果我错了,请告诉我,但我认为我可以使用以下两种方法:入门-Spark、IPython笔记本电脑和pyspark,python,hadoop,apache-spark,ipython-notebook,pyspark,Python,Hadoop,Apache Spark,Ipython Notebook,Pyspark,我想了解如何设置一切,使iPython笔记本和pyspark能够正常工作 我目前有一个ec2实例 如果我错了,请告诉我,但我认为我可以使用以下两种方法: ./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster () 或者这个: aws emr create-cluster
./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster
()
或者这个:
aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles
()
这两者之间真的有很大区别吗
要编写和执行脚本,我应该在主节点上,对吗
所以,我用来运行Spark的ec2实例不会被使用
(我必须在主节点上安装ipython笔记本?)
提前感谢你的帮助
(我找过教程,但没有找到我想要的
你知道好的吗?你提到的第一个教程是我迄今为止发现的最好的。我不确定你提到的两种方法之间的区别 我使用
/spark-ec2
成功地在ec2上构建了一个spark集群。要让它与IPython协同工作,需要额外安装几次
首先使用/spark-ec2
过程启动集群。我在以下方面取得了成功:
$cd/root/spark
运行:
MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook --ip="*"' ./bin/pyspark
MASTER=spark://:7077 PYSPARK\u PYTHON=~/anaconda2/bin/PYTHON PYSPARK\u DRIVER\u PYTHON=ipython PYSPARK\u DRIVER\u PYTHON\u OPTS='notebook--ip=“*”./bin/PYSPARK