Python 默认情况下，spark read csv尝试从Hdfs读取。那么如何读取本地csv文件呢？皮斯帕克_Python_Apache Spark_Hdfs_Pyspark

Python 默认情况下，spark read csv尝试从Hdfs读取。那么如何读取本地csv文件呢？皮斯帕克

python apache-spark pyspark

Python 默认情况下，spark read csv尝试从Hdfs读取。那么如何读取本地csv文件呢？皮斯帕克,python,apache-spark,hdfs,pyspark,Python,Apache Spark,Hdfs,Pyspark,最初，我正在读取一个csv文件（本地），该文件位于我的独立集群中的所有节点中 df = spark.read.csv('/data/TRX_FILE/1000_trx.csv',header=True) #Everything was fine then 现在我安装了HDFS，并在spark-env.sh中设置了所有节点的conf路径 export HADOOP_CONF_DIR=/etc/hadoop/conf ###to read/avoid core_site.xml error

最初，我正在读取一个csv文件（本地），该文件位于我的独立集群中的所有节点中

df = spark.read.csv('/data/TRX_FILE/1000_trx.csv',header=True)
#Everything was fine then

现在我安装了HDFS，并在spark-env.sh中设置了所有节点的conf路径

export HADOOP_CONF_DIR=/etc/hadoop/conf  ###to read/avoid core_site.xml  error

并尝试读取相同的csv，我打算对其进行一些分析，然后将其写入Hdfs路径。但到目前为止，我的csv是在本地路径

#when tried 
df = spark.read.csv('/data/TRX_FILE/1000_trx.csv',header=True)
#Error:
 raise AnalysisException(s.split(': ', 1)[1], stackTrace)
  pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://Myspark:9000/data/TRX_FILE/1000_trx.csv;'

我的问题是：为什么它甚至试图从HDFS中读取？？？。我甚至还没有提到HDFS路径。。。。当我的意图或要求是阅读当地的csv时……我只是对问题和解决方案感到困惑。这里有什么我做错的吗？？？请也纠正我

请帮助我。。感谢您的支持。

使用

file:///data/...

如果您不想阅读HDFS@cricket_007-成功了，谢谢。。。你能不能把这个贴在我的回答里，这样我就可以接受这个回答了。