Python Pyspark:使用hdfs读取群集中的表时出现问题：\\master:_Python_Apache Spark_Pyspark_Apache Spark Sql

Python Pyspark:使用hdfs读取群集中的表时出现问题：\\master:

python apache-spark pyspark

Python Pyspark:使用hdfs读取群集中的表时出现问题：\\master:,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我已通过以下方式初始化spark会话： spark_session = SparkSession.builder \ .appName('LSC_PROJECT') \ .getOrCreate() df = self.spark_session.read.\ csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure

我已通过以下方式初始化spark会话：

spark_session = SparkSession.builder \
                .appName('LSC_PROJECT') \
                .getOrCreate()

df = self.spark_session.read.\
            csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
            withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
            withColumn("duration", col("End") - col("Start"))

然后我试着用这种方式阅读很多表格：

spark_session = SparkSession.builder \
                .appName('LSC_PROJECT') \
                .getOrCreate()

df = self.spark_session.read.\
            csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
            withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
            withColumn("duration", col("End") - col("Start"))

问题是，当我在本地使用spark运行它时，这会起作用，但当我在集群上运行它时，我会得到以下错误：

Traceback (most recent call last):
  File "/home/user24/LSCproject/Main.py", line 42, in <module>
    wav.recording_annotation()
  File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
    csv(path='LSCproject/Database/audio_and_txt_files/*.txt', header=False, schema= data_structure, sep='\t').\
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
  File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt;'

回溯（最近一次呼叫最后一次）：
文件“/home/user24/LSCproject/Main.py”，第42行，在
wav.recording_annotation（）
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”，第45行，记录注释中
csv（path='LSCproject/Database/audio_和_txt_files/*.txt'，header=False，schema=data_structure，sep='\t'）\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”，第1257行，在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第69行，deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在：hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt；'

非常感谢您的指导或建议

更新：

输出uning/user/user24/LSCproject/Database/而不是WAV.PATH\u FILES\u WAV+'/.txt*

回溯（最近一次呼叫最后一次）：
文件“/home/user24/LSCproject/Main.py”，第42行，在
wav.recording_annotation（）
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”，第45行，记录注释中
csv（路径='/user/user24/LSCproject/Database/'，header=False，schema=data\u结构，sep='\t'）\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”，第1257行，在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第69行，deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在：hdfs://master:9000/user/user24/LSCproject/Database;'

异常消息表示HDFS路径不存在，请添加正确的HDFS路径并重试

Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database

回溯（最近一次呼叫最后一次）：
文件“/home/user24/LSCproject/Main.py”，第42行，在
wav.recording_annotation（）
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”，第45行，记录注释中
csv（路径='/user/user24/LSCproject/Database/'，header=False，schema=data\u结构，sep='\t'）\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”，第1257行，在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第69行，deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在：hdfs://master:9000/user/user24/LSCproject/Database;'

异常消息表示HDFS路径不存在，请添加正确的HDFS路径并重试

Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database

回溯（最近一次呼叫最后一次）：
文件“/home/user24/LSCproject/Main.py”，第42行，在
wav.recording_annotation（）
文件“/home/user24/LSCproject/wav\u manipulation/wav.py”，第45行，记录注释中
csv（路径='/user/user24/LSCproject/Database/'，header=False，schema=data\u结构，sep='\t'）\
csv格式的文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第441行
文件“/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”，第1257行，在__
文件“/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第69行，deco格式
pyspark.sql.utils.AnalysisException:u'路径不存在：hdfs://master:9000/user/user24/LSCproject/Database;'

path=WAV.path\u FILES\u WAV的值是多少？在local中，我使用一个函数返回.txt文件所在的路径。在本地运行良好，但在集群上不起作用。我试着把整个路径hdfs://master:9000/user/user24/LSCproject/Database/*.txt您只能用hdfs-/user/user24/LSCproject/Database/&hdfs://master:9000/user/user24/LSCproject/Database/*.txt也在这里发布输出。是的，我用resultswhat-about hdfs命令更新了帖子，hdfs-lshdfs://master:9000/user/user24/LSCproject/Database/*.txt，执行后是否可以发布此日志。此-path=WAV.path\u FILES\u WAV的值是多少？在本地，我使用一个函数返回.txt文件所在的路径。在本地运行良好，但在集群上不起作用。我试着把整个路径hdfs://master:9000/user/user24/LSCproject/Database/*.txt您只能用hdfs-/user/user24/LSCproject/Database/&hdfs://master:9000/user/user24/LSCproject/Database/*.txt也在这里发布输出。是的，我用resultswhat-about hdfs命令更新了帖子，hdfs-lshdfs://master:9000/user/user24/LSCproject/Database/*.txt，你能在执行后发布这个日志吗？这是我的想法，但问题是路径应该是正确的，我检查了很多次。如何以类似于bash上的pwd命令的方式获取hdfs路径？它是在本地运行还是在集群中运行？可以告诉我文件的确切位置。。执行ls&show输出抱歉，hdf的路径错误，我忘记了audio_和_txt_files文件夹，但我也尝试了正确的路径，无法工作。然而，在txt文件所在的文件夹中执行pwd时，我得到了：/home/user24/LSCproject/Database/audio_和_txt_文件这是我的想法，但问题是路径应该是正确的，我检查了很多次。如何以类似于bash上的pwd命令的方式获取hdfs路径？它是在本地运行还是在集群中运行？可以告诉我文件的确切位置。。执行ls&show输出抱歉，hdf的路径错误，我忘记了audio_和_txt_files文件夹，但我也尝试了正确的路径，无法工作。然而，在txt文件所在的文件夹中执行pwd时，我得到了：/home/user24/LSCproject/Database/audio_和_txt_文件