Pyspark 在群集模式下通过spark提交的pyarrow失败_Pyspark_Spark Submit_Cluster Mode

Pyspark 在群集模式下通过spark提交的pyarrow失败

pyspark

Pyspark 在群集模式下通过spark提交的pyarrow失败,pyspark,spark-submit,cluster-mode,Pyspark,Spark Submit,Cluster Mode,我有一个简单的Pyspark代码导入pyarrow fs=pyarrow.hdfs.connect（）如果我在“客户机”模式下使用spark submit运行此程序，它工作正常，但在“集群”模式下会抛出错误 Traceback (most recent call last): File "t3.py", line 17, in <module> fs = pa.hdfs.connect() File "/opt/anaconda/3.6/lib/python3.6

我有一个简单的Pyspark代码

导入pyarrow fs=pyarrow.hdfs.connect（）

如果我在“客户机”模式下使用spark submit运行此程序，它工作正常，但在“集群”模式下会抛出错误

Traceback (most recent call last):
  File "t3.py", line 17, in <module>
    fs = pa.hdfs.connect()
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 181, in connect
    kerb_ticket=kerb_ticket, driver=driver)
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 37, in __init__
    self._connect(host, port, user, kerb_ticket, driver)
  File "io-hdfs.pxi", line 99, in pyarrow.lib.HadoopFileSystem._connect
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS connection failed

回溯（最近一次呼叫最后一次）：
文件“t3.py”，第17行，在
fs=pa.hdfs.connect（）
文件“/opt/anaconda/3.6/lib/python3.6/site packages/pyarrow/hdfs.py”，第181行，在connect中
路边车票=路边车票，司机=司机）
文件“/opt/anaconda/3.6/lib/python3.6/site packages/pyarrow/hdfs.py”，第37行，在__
自连接（主机、端口、用户、路边车票、驱动程序）
pyarrow.lib.Hadoop文件系统中的文件“io hdfs.pxi”，第99行
pyarrow.lib.check_status中第79行的文件“error.pxi”
pyarrow.lib.ArrowIOError:HDFS连接失败

所有必要的python库都安装在Hadoop集群中的每个节点上。我已经在pyspark下对每个节点单独测试了这段代码

但不能通过群集模式下的spark submit使其工作

有什么想法吗

shankar

你曾经解决过这个问题吗？如果是，怎么解决？