Eclipse中的PySpark:使用PyDev
我正在从命令行运行一个本地pyspark代码,它可以工作:Eclipse中的PySpark:使用PyDev,eclipse,python-2.7,apache-spark,pydev,pyspark,Eclipse,Python 2.7,Apache Spark,Pydev,Pyspark,我正在从命令行运行一个本地pyspark代码,它可以工作: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores 3 /myPath/myProject.py 是否可以使用PyDev从Eclipse运行此代码?运行配置中
/Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores 3 /myPath/myProject.py
是否可以使用PyDev从Eclipse运行此代码?运行配置中需要哪些参数?我尝试了,但出现了以下错误:
Traceback (most recent call last):
File "/myPath/myProject.py", line 587, in <module>
main()
File "/myPath/myProject.py", line 506, in main
conf = SparkConf()
File "/Users/edamame/local-lib/apache-spark/spark-1.5.1/python/pyspark/conf.py", line 104, in __init__
SparkContext._ensure_initialized()
File "/Users/edamame/local-lib/apache-spark/spark-1.5.1/python/pyspark/context.py", line 234, in _ensure_initialized
SparkContext._gateway = gateway or launch_gateway()
File "/Users/edamame/local-lib/apache-spark/spark-1.5.1/python/pyspark/java_gateway.py", line 76, in launch_gateway
proc = Popen(command, stdin=PIPE, preexec_fn=preexec_func, env=env)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 711, in __init__
errread, errwrite)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 1308, in _execute_child
raise child_exception
OSError: [Errno 2] No such file or directory
有人知道吗?多谢各位 考虑以下先决条件: 已安装Eclipse、PyDev和Spark。 配置了Python解释器的PyDev。 配置了Spark Python源代码的PyDev。 以下是您需要执行的操作: 在Eclipse ID中,检查您是否处于PyDev透视图上: 在Mac上:Eclipse>首选项 在Linux上:窗口>首选项 从首选项窗口,转到PyDev>解释器>Python解释器: 单击中央按钮[环境] 单击按钮[New…]添加新的环境变量。 添加环境变量SPARK_HOME并验证: 名称:SPARK_HOME,值:/path/to/apache SPARK/SPARK-1.5.1/ 注意:不要使用系统环境变量,如$SPARK\u HOME 我还建议您在每个项目中处理自己的log4j.properties文件 为此,您需要像前面一样添加环境变量SPARK_CONF_DIR,例如:
Name: SPARK_CONF_DIR, Value: ${project_loc}/conf
如果您遇到变量${project_loc}的一些问题,例如:在Linux中,请指定一个绝对路径
或者,如果希望保留${project\u loc},右键单击每个Python源代码并:Runs As>Run Configuration,然后在环境选项卡中创建SPARK\u CONF\u DIR变量,如前所述
有时,您可以添加其他环境变量,如TERM、SPARK\u LOCAL\u IP等:
名称:TERM,Mac上的值:xterm-256color,Linux上的值:xterm,当然,如果您想使用xterm
名称:SPARK_LOCAL_IP,值:127.0.0.1建议指定您的真实本地IP地址
PS:我不记得本教程的来源,所以请原谅我没有引用作者。这不是我自己想出来的。考虑到以下先决条件: 已安装Eclipse、PyDev和Spark。 配置了Python解释器的PyDev。 配置了Spark Python源代码的PyDev。 以下是您需要执行的操作: 在Eclipse ID中,检查您是否处于PyDev透视图上: 在Mac上:Eclipse>首选项 在Linux上:窗口>首选项 从首选项窗口,转到PyDev>解释器>Python解释器: 单击中央按钮[环境] 单击按钮[New…]添加新的环境变量。 添加环境变量SPARK_HOME并验证: 名称:SPARK_HOME,值:/path/to/apache SPARK/SPARK-1.5.1/ 注意:不要使用系统环境变量,如$SPARK\u HOME 我还建议您在每个项目中处理自己的log4j.properties文件 为此,您需要像前面一样添加环境变量SPARK_CONF_DIR,例如:
Name: SPARK_CONF_DIR, Value: ${project_loc}/conf
如果您遇到变量${project_loc}的一些问题,例如:在Linux中,请指定一个绝对路径
或者,如果希望保留${project\u loc},右键单击每个Python源代码并:Runs As>Run Configuration,然后在环境选项卡中创建SPARK\u CONF\u DIR变量,如前所述
有时,您可以添加其他环境变量,如TERM、SPARK\u LOCAL\u IP等:
名称:TERM,Mac上的值:xterm-256color,Linux上的值:xterm,当然,如果您想使用xterm
名称:SPARK_LOCAL_IP,值:127.0.0.1建议指定您的真实本地IP地址
PS:我不记得本教程的来源,所以请原谅我没有引用作者。这不是我自己想出来的。我在这里找到了完整的指南:。eliasah帖子中的说明对我不起作用,我想所有的都是关于Py4J配置的。按照上面提到的所有步骤,但我仍然得到以下错误------raise Exception Java gateway进程在发送驱动程序之前退出其端口号异常:Java gateway进程在发送之前退出驱动程序及其端口号在此处找到完整指南:。eliasah帖子中的说明对我不起作用,我想所有的都是关于Py4J配置的。按照上面提到的所有步骤,但我仍然得到以下错误------raise Exception Java gateway进程在发送驱动程序之前退出其端口号异常:Java gateway进程在发送之前退出驱动程序将显示其端口号