Hadoop Spark:如何在';纱线客户';来自不同用户的模式
假设我有一个4节点的Hadoop集群(在我的例子中是Cloudera发行版),每个节点(“/home/Hadoop”)上都有一个名为“Hadoop”的用户。另外,我还安装了第五台服务器,Jupyter和Anaconda,用户名为“ipython”,但没有安装hadoop 假设我想通过保留“ipython”用户,从第五台服务器远程启动“Thread_client”模式下的Jupyter,我的问题是,我的日志中出现了一个问题,即不允许用户“ipython”(或类似的情况) 为了获取信息,我从HADOOP集群复制了一个虚拟目录(用于设置HADOOP_CONF_DIR环境变量)粘贴到第五台服务器。在我的“kernel.json”文件中的“local[*]”设置下一切都很好(幸运的是),但当我将主值更改为“thread_client”时,问题又出现了(不幸的是)Hadoop Spark:如何在';纱线客户';来自不同用户的模式,hadoop,apache-spark,ipython,pyspark,jupyter,Hadoop,Apache Spark,Ipython,Pyspark,Jupyter,假设我有一个4节点的Hadoop集群(在我的例子中是Cloudera发行版),每个节点(“/home/Hadoop”)上都有一个名为“Hadoop”的用户。另外,我还安装了第五台服务器,Jupyter和Anaconda,用户名为“ipython”,但没有安装hadoop 假设我想通过保留“ipython”用户,从第五台服务器远程启动“Thread_client”模式下的Jupyter,我的问题是,我的日志中出现了一个问题,即不允许用户“ipython”(或类似的情况) 为了获取信息,我从HADO
有解决这个问题的诀窍吗?或者可能有几种不同的技巧?我有一个CDH5.5+jupyter的工作部署,带有pyspark和scala原生spark。在我的例子中,我使用一个专用用户启动jupyter服务器,然后从客户端浏览器连接到它 在分享关于您的问题的一些想法之前,我想指出,如果您的第五台服务器未与集群紧密连接,您应该避免在Thread客户端模式下启动pyspark,因为通信延迟肯定会减慢您的工作。据我所知,如果没有
pyspark submit
如果您仍然希望驱动程序节点在第5台服务器中执行,请确保您的用户“ipython”具有访问hdfs和其他hadoop conf目录的正确权限,您可能需要在其他hadoop节点中创建该用户
另外,请确保您的Thread-conf.xml配置正确,以反映您的Thread ResourceManager的地址。我有一个CDH5.5+jupyter与pyspark和scala native spark的有效部署。在我的例子中,我使用一个专用用户启动jupyter服务器,然后从客户端浏览器连接到它 在分享关于您的问题的一些想法之前,我想指出,如果您的第五台服务器未与集群紧密连接,您应该避免在Thread客户端模式下启动pyspark,因为通信延迟肯定会减慢您的工作。据我所知,如果没有
pyspark submit
如果您仍然希望驱动程序节点在第5台服务器中执行,请确保您的用户“ipython”具有访问hdfs和其他hadoop conf目录的正确权限,您可能需要在其他hadoop节点中创建该用户
另外,请确保您的Thread-conf.xml已正确配置,以反映Thread ResourceManager的地址