Pyspark 在群集模式下通过spark提交的pyarrow失败

Pyspark 在群集模式下通过spark提交的pyarrow失败,pyspark,spark-submit,cluster-mode,Pyspark,Spark Submit,Cluster Mode,我有一个简单的Pyspark代码 导入pyarrow fs=pyarrow.hdfs.connect() 如果我在“客户机”模式下使用spark submit运行此程序,它工作正常,但在“集群”模式下会抛出错误 Traceback (most recent call last): File "t3.py", line 17, in <module> fs = pa.hdfs.connect() File "/opt/anaconda/3.6/lib/python3.6

我有一个简单的Pyspark代码

导入pyarrow fs=pyarrow.hdfs.connect()

如果我在“客户机”模式下使用spark submit运行此程序,它工作正常,但在“集群”模式下会抛出错误

Traceback (most recent call last):
  File "t3.py", line 17, in <module>
    fs = pa.hdfs.connect()
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 181, in connect
    kerb_ticket=kerb_ticket, driver=driver)
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 37, in __init__
    self._connect(host, port, user, kerb_ticket, driver)
  File "io-hdfs.pxi", line 99, in pyarrow.lib.HadoopFileSystem._connect
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS connection failed
回溯(最近一次呼叫最后一次):
文件“t3.py”,第17行,在
fs=pa.hdfs.connect()
文件“/opt/anaconda/3.6/lib/python3.6/site packages/pyarrow/hdfs.py”,第181行,在connect中
路边车票=路边车票,司机=司机)
文件“/opt/anaconda/3.6/lib/python3.6/site packages/pyarrow/hdfs.py”,第37行,在__
自连接(主机、端口、用户、路边车票、驱动程序)
pyarrow.lib.Hadoop文件系统中的文件“io hdfs.pxi”,第99行
pyarrow.lib.check_status中第79行的文件“error.pxi”
pyarrow.lib.ArrowIOError:HDFS连接失败
所有必要的python库都安装在Hadoop集群中的每个节点上。我已经在pyspark下对每个节点单独测试了这段代码

但不能通过群集模式下的spark submit使其工作

有什么想法吗


shankar

你曾经解决过这个问题吗?如果是,怎么解决?