Hadoop Spark：如何在'；纱线客户'；来自不同用户的模式_Hadoop_Apache Spark_Ipython_Pyspark_Jupyter

Hadoop Spark：如何在'；纱线客户'；来自不同用户的模式

hadoop apache-spark ipython pyspark

Hadoop Spark：如何在'；纱线客户'；来自不同用户的模式,hadoop,apache-spark,ipython,pyspark,jupyter,Hadoop,Apache Spark,Ipython,Pyspark,Jupyter,假设我有一个4节点的Hadoop集群（在我的例子中是Cloudera发行版），每个节点（“/home/Hadoop”）上都有一个名为“Hadoop”的用户。另外，我还安装了第五台服务器，Jupyter和Anaconda，用户名为“ipython”，但没有安装hadoop 假设我想通过保留“ipython”用户，从第五台服务器远程启动“Thread_client”模式下的Jupyter，我的问题是，我的日志中出现了一个问题，即不允许用户“ipython”（或类似的情况）为了获取信息，我从HADO

假设我有一个4节点的Hadoop集群（在我的例子中是Cloudera发行版），每个节点（“/home/Hadoop”）上都有一个名为“Hadoop”的用户。另外，我还安装了第五台服务器，Jupyter和Anaconda，用户名为“ipython”，但没有安装hadoop

假设我想通过保留“ipython”用户，从第五台服务器远程启动“Thread_client”模式下的Jupyter，我的问题是，我的日志中出现了一个问题，即不允许用户“ipython”（或类似的情况）

为了获取信息，我从HADOOP集群复制了一个虚拟目录（用于设置HADOOP_CONF_DIR环境变量）粘贴到第五台服务器。在我的“kernel.json”文件中的“local[*]”设置下一切都很好（幸运的是），但当我将主值更改为“thread_client”时，问题又出现了（不幸的是）

有解决这个问题的诀窍吗？或者可能有几种不同的技巧？

我有一个CDH5.5+jupyter的工作部署，带有pyspark和scala原生spark。在我的例子中，我使用一个专用用户启动jupyter服务器，然后从客户端浏览器连接到它

在分享关于您的问题的一些想法之前，我想指出，如果您的第五台服务器未与集群紧密连接，您应该避免在Thread客户端模式下启动pyspark，因为通信延迟肯定会减慢您的工作。据我所知，如果没有

pyspark submit

如果您仍然希望驱动程序节点在第5台服务器中执行，请确保您的用户“ipython”具有访问hdfs和其他hadoop conf目录的正确权限，您可能需要在其他hadoop节点中创建该用户

另外，请确保您的Thread-conf.xml配置正确，以反映您的Thread ResourceManager的地址。

我有一个CDH5.5+jupyter与pyspark和scala native spark的有效部署。在我的例子中，我使用一个专用用户启动jupyter服务器，然后从客户端浏览器连接到它

pyspark submit

另外，请确保您的Thread-conf.xml已正确配置，以反映Thread ResourceManager的地址