入门-Spark、IPython笔记本电脑和pyspark

入门-Spark、IPython笔记本电脑和pyspark,python,hadoop,apache-spark,ipython-notebook,pyspark,Python,Hadoop,Apache Spark,Ipython Notebook,Pyspark,我想了解如何设置一切,使iPython笔记本和pyspark能够正常工作 我目前有一个ec2实例 如果我错了,请告诉我,但我认为我可以使用以下两种方法: ./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster () 或者这个: aws emr create-cluster

我想了解如何设置一切,使iPython笔记本和pyspark能够正常工作

我目前有一个ec2实例

如果我错了,请告诉我,但我认为我可以使用以下两种方法:

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster
()

或者这个:

aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles
()

这两者之间真的有很大区别吗

要编写和执行脚本,我应该在主节点上,对吗

所以,我用来运行Spark的ec2实例不会被使用

(我必须在主节点上安装ipython笔记本?)

提前感谢你的帮助

(我找过教程,但没有找到我想要的


你知道好的吗?

你提到的第一个教程是我迄今为止发现的最好的。我不确定你提到的两种方法之间的区别

我使用
/spark-ec2
成功地在ec2上构建了一个spark集群。要让它与IPython协同工作,需要额外安装几次

首先使用
/spark-ec2
过程启动集群。我在以下方面取得了成功:

  • 在主节点和所有工作节点上安装Anaconda和PY4J。Anaconda应该设置在路径的前面(例如path=/home/ec2 user/anaconda2/bin:$path)
  • 接下来,ssh到master,然后
    $cd/root/spark
    运行:

    MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark
    
    MASTER=spark://:7077 PYSPARK\u PYTHON=~/anaconda2/bin/PYTHON PYSPARK\u DRIVER\u PYTHON=ipython PYSPARK\u DRIVER\u PYTHON\u OPTS='notebook--ip=“*”./bin/PYSPARK
    
  • 访问:8888以访问笔记本。如果您希望这是公共的,那么为master打开安全组中的8888端口。否则,创建一个ssh隧道