Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Pyspark在Jupyer笔记本上工作,但不是Pycharm_Python_Apache Spark_Hadoop_Pyspark_Jupyter - Fatal编程技术网

Python Pyspark在Jupyer笔记本上工作,但不是Pycharm

Python Pyspark在Jupyer笔记本上工作,但不是Pycharm,python,apache-spark,hadoop,pyspark,jupyter,Python,Apache Spark,Hadoop,Pyspark,Jupyter,我在Jupyter笔记本电脑中安装了一个可以正常工作的Pyspark(本地独立模式,尚未尝试远程集群)。但是,尝试在pycharm中运行时,我遇到以下错误: Picked up _JAVA_OPTIONS: -Xmx512m 20/09/11 17:09:42 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate execu

我在Jupyter笔记本电脑中安装了一个可以正常工作的Pyspark(本地独立模式,尚未尝试远程集群)。但是,尝试在pycharm中运行时,我遇到以下错误:

Picked up _JAVA_OPTIONS: -Xmx512m
20/09/11 17:09:42 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
我想我可能需要重新指出一些环境变量,但考虑到它在一个环境中工作,我不愿意在没有确定的情况下这样做。如果发现类似问题,有人能提供建议吗

目前的主要环境变量:

PYSPARK_HOME = C:/Anaconda3/Lib/site-packages/pyspark
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_141\
_JAVA_OPTIONS = -Xmx512m  (not sure what this is exactly, looks possibly memory related from quick search)

在关于这个问题的其他搜索中,我看到了关于下载
winutils.exe
和将
HADDOP\u HOME
环境变量指向这个的建议。然而,一些文章似乎建议将应用程序限制为本地模式(我的理解有限)。同时,我也很想理解为什么它在jupyter中已经可以工作,而没有这个功能(不确定是否在jupyter中以某种方式本地设置了环境变量,并且即使在关闭会话后它仍然保持设置)。

为了解决这个问题,我删除了java选项变量,下载了winutils,并在我的SPARK_主页中本地保存,并创建了HADOOP_主页。它解决了这个问题,不知道如果没有这个,它是如何运作的,虽然最初还在jupyter。