Python Pyspark在Jupyer笔记本上工作，但不是Pycharm_Python_Apache Spark_Hadoop_Pyspark_Jupyter

Python Pyspark在Jupyer笔记本上工作，但不是Pycharm

python apache-spark hadoop pyspark

Python Pyspark在Jupyer笔记本上工作，但不是Pycharm,python,apache-spark,hadoop,pyspark,jupyter,Python,Apache Spark,Hadoop,Pyspark,Jupyter,我在Jupyter笔记本电脑中安装了一个可以正常工作的Pyspark（本地独立模式，尚未尝试远程集群）。但是，尝试在pycharm中运行时，我遇到以下错误： Picked up _JAVA_OPTIONS: -Xmx512m 20/09/11 17:09:42 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate execu

我在Jupyter笔记本电脑中安装了一个可以正常工作的Pyspark（本地独立模式，尚未尝试远程集群）。但是，尝试在pycharm中运行时，我遇到以下错误：

Picked up _JAVA_OPTIONS: -Xmx512m
20/09/11 17:09:42 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

我想我可能需要重新指出一些环境变量，但考虑到它在一个环境中工作，我不愿意在没有确定的情况下这样做。如果发现类似问题，有人能提供建议吗

目前的主要环境变量：

PYSPARK_HOME = C:/Anaconda3/Lib/site-packages/pyspark
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_141\
_JAVA_OPTIONS = -Xmx512m  (not sure what this is exactly, looks possibly memory related from quick search)

在关于这个问题的其他搜索中，我看到了关于下载

winutils.exe

和将

HADDOP\u HOME

环境变量指向这个的建议。然而，一些文章似乎建议将应用程序限制为本地模式（我的理解有限）。同时，我也很想理解为什么它在jupyter中已经可以工作，而没有这个功能（不确定是否在jupyter中以某种方式本地设置了环境变量，并且即使在关闭会话后它仍然保持设置）。

为了解决这个问题，我删除了java选项变量，下载了winutils，并在我的SPARK_主页中本地保存，并创建了HADOOP_主页。它解决了这个问题，不知道如果没有这个，它是如何运作的，虽然最初还在jupyter。