Python Pyspark:使用hdfs读取群集中的表时出现问题:\\master:

Python Pyspark:使用hdfs读取群集中的表时出现问题:\\master:,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我已通过以下方式初始化spark会话: spark_session = SparkSession.builder \ .appName('LSC_PROJECT') \ .getOrCreate() df = self.spark_session.read.\ csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure

我已通过以下方式初始化spark会话:

spark_session = SparkSession.builder \
                .appName('LSC_PROJECT') \
                .getOrCreate()
df = self.spark_session.read.\
            csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
            withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
            withColumn("duration", col("End") - col("Start"))
然后我试着用这种方式阅读很多表格:

spark_session = SparkSession.builder \
                .appName('LSC_PROJECT') \
                .getOrCreate()
df = self.spark_session.read.\
            csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
            withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
            withColumn("duration", col("End") - col("Start"))
问题是,当我在本地使用spark运行它时,这会起作用,但当我在集群上运行它时,我会得到以下错误:

Traceback (most recent call last):
  File "/home/user24/LSCproject/Main.py", line 42, in <module>
    wav.recording_annotation()
  File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
    csv(path='LSCproject/Database/audio_and_txt_files/*.txt', header=False, schema= data_structure, sep='\t').\
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
  File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt;'
回溯(最近一次呼叫最后一次):
文件“/home/user24/LSCproject/Main.py”,第42行,在
wav.recording_annotation()
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”,第45行,记录注释中
csv(path='LSCproject/Database/audio_和_txt_files/*.txt',header=False,schema=data_structure,sep='\t')\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”,第1257行,在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”,第69行,deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在:hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt;'
非常感谢您的指导或建议

更新:

输出uning/user/user24/LSCproject/Database/而不是WAV.PATH\u FILES\u WAV+'/.txt*

回溯(最近一次呼叫最后一次):
文件“/home/user24/LSCproject/Main.py”,第42行,在
wav.recording_annotation()
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”,第45行,记录注释中
csv(路径='/user/user24/LSCproject/Database/',header=False,schema=data\u结构,sep='\t')\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”,第1257行,在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”,第69行,deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在:hdfs://master:9000/user/user24/LSCproject/Database;'

异常消息表示HDFS路径不存在,请添加正确的HDFS路径并重试

Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database
回溯(最近一次呼叫最后一次):
文件“/home/user24/LSCproject/Main.py”,第42行,在
wav.recording_annotation()
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”,第45行,记录注释中
csv(路径='/user/user24/LSCproject/Database/',header=False,schema=data\u结构,sep='\t')\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”,第1257行,在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”,第69行,deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在:hdfs://master:9000/user/user24/LSCproject/Database;'

异常消息表示HDFS路径不存在,请添加正确的HDFS路径并重试

Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database
回溯(最近一次呼叫最后一次):
文件“/home/user24/LSCproject/Main.py”,第42行,在
wav.recording_annotation()
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”,第45行,记录注释中
csv(路径='/user/user24/LSCproject/Database/',header=False,schema=data\u结构,sep='\t')\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”,第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”,第1257行,在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”,第69行,deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在:hdfs://master:9000/user/user24/LSCproject/Database;'


path=WAV.path\u FILES\u WAV的值是多少?在local中,我使用一个函数返回.txt文件所在的路径。在本地运行良好,但在集群上不起作用。我试着把整个路径hdfs://master:9000/user/user24/LSCproject/Database/*.txt您只能用hdfs-/user/user24/LSCproject/Database/&hdfs://master:9000/user/user24/LSCproject/Database/*.txt也在这里发布输出。是的,我用resultswhat-about hdfs命令更新了帖子,hdfs-lshdfs://master:9000/user/user24/LSCproject/Database/*.txt,执行后是否可以发布此日志。此-path=WAV.path\u FILES\u WAV的值是多少?在本地,我使用一个函数返回.txt文件所在的路径。在本地运行良好,但在集群上不起作用。我试着把整个路径hdfs://master:9000/user/user24/LSCproject/Database/*.txt您只能用hdfs-/user/user24/LSCproject/Database/&hdfs://master:9000/user/user24/LSCproject/Database/*.txt也在这里发布输出。是的,我用resultswhat-about hdfs命令更新了帖子,hdfs-lshdfs://master:9000/user/user24/LSCproject/Database/*.txt,你能在执行后发布这个日志吗?这是我的想法,但问题是路径应该是正确的,我检查了很多次。如何以类似于bash上的pwd命令的方式获取hdfs路径?它是在本地运行还是在集群中运行?可以告诉我文件的确切位置。。执行ls&show输出抱歉,hdf的路径错误,我忘记了audio_和_txt_files文件夹,但我也尝试了正确的路径,无法工作。然而,在txt文件所在的文件夹中执行pwd时,我得到了:/home/user24/LSCproject/Database/audio_和_txt_文件这是我的想法,但问题是路径应该是正确的,我检查了很多次。如何以类似于bash上的pwd命令的方式获取hdfs路径?它是在本地运行还是在集群中运行?可以告诉我文件的确切位置。。执行ls&show输出抱歉,hdf的路径错误,我忘记了audio_和_txt_files文件夹,但我也尝试了正确的路径,无法工作。然而,在txt文件所在的文件夹中执行pwd时,我得到了:/home/user24/LSCproject/Database/audio_和_txt_文件