Python PySpark与访问HDFS_Python_Hadoop_Apache Spark_Pyspark

Python PySpark与访问HDFS

python hadoop apache-spark pyspark

Python PySpark与访问HDFS,python,hadoop,apache-spark,pyspark,Python,Hadoop,Apache Spark,Pyspark,我试图得到一个文件，我已经复制到HDFS，但我似乎无法得到关于如何实际连接清晰。例如，我使用以下命令将文件放置在HDFS中： hdfs dfs -put ~/spark-1.4.0/XXX/YYY input 这很好，但现在的问题是如何从PySpark定位它们。spark的文档指向：我使用的spark版本与hadoop2.6相匹配，但在上面链接指向的目录中没有看到任何conf文件我可以直接访问输入文件吗？或者我需要使用PySpark进行更多配置吗？因此，Spark不会随hadoop站点或T

我试图得到一个文件，我已经复制到HDFS，但我似乎无法得到关于如何实际连接清晰。例如，我使用以下命令将文件放置在HDFS中：

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input

这很好，但现在的问题是如何从PySpark定位它们。spark的文档指向：

我使用的spark版本与hadoop2.6相匹配，但在上面链接指向的目录中没有看到任何conf文件

我可以直接访问输入文件吗？或者我需要使用PySpark进行更多配置吗？

因此，Spark不会随hadoop站点或Thread站点文件一起提供，因为这些文件是特定于hadoop安装的

您应该更新spark-env.sh脚本，以指向文件所在的配置目录。如果找不到hadoop-site.xml文件，可以尝试运行export和grep for CONF并检查

warn\u CONF\u DIR

或

hadoop\u CONF\u DIR

。如果您找不到其中任何一个，那么您的hdfs命令可能已经找到了您的配置，因此您可以始终在其上运行strace并查找其加载配置文件的位置