Python PySpark与访问HDFS

Python PySpark与访问HDFS,python,hadoop,apache-spark,pyspark,Python,Hadoop,Apache Spark,Pyspark,我试图得到一个文件,我已经复制到HDFS,但我似乎无法得到关于如何实际连接清晰。例如,我使用以下命令将文件放置在HDFS中: hdfs dfs -put ~/spark-1.4.0/XXX/YYY input 这很好,但现在的问题是如何从PySpark定位它们。spark的文档指向: 我使用的spark版本与hadoop2.6相匹配,但在上面链接指向的目录中没有看到任何conf文件 我可以直接访问输入文件吗?或者我需要使用PySpark进行更多配置吗?因此,Spark不会随hadoop站点或T

我试图得到一个文件,我已经复制到HDFS,但我似乎无法得到关于如何实际连接清晰。例如,我使用以下命令将文件放置在HDFS中:

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input
这很好,但现在的问题是如何从PySpark定位它们。spark的文档指向:

我使用的spark版本与hadoop2.6相匹配,但在上面链接指向的目录中没有看到任何conf文件


我可以直接访问输入文件吗?或者我需要使用PySpark进行更多配置吗?

因此,Spark不会随hadoop站点或Thread站点文件一起提供,因为这些文件是特定于hadoop安装的

您应该更新spark-env.sh脚本,以指向文件所在的配置目录。如果找不到hadoop-site.xml文件,可以尝试运行export和grep for CONF并检查
warn\u CONF\u DIR
hadoop\u CONF\u DIR
。如果您找不到其中任何一个,那么您的hdfs命令可能已经找到了您的配置,因此您可以始终在其上运行strace并查找其加载配置文件的位置