Csv HDFS URI不完整，没有主机_Csv_Pyspark_Hdfs

Csv HDFS URI不完整，没有主机

csv pyspark

Csv HDFS URI不完整，没有主机,csv,pyspark,hdfs,Csv,Pyspark,Hdfs,我正在尝试通过PySpark从HDFS读取csv文件。我正在使用以下代码： path='hdfs://XX.XX.XX.XX:X000' myrdd=sc.textFile(path) 该文件可以正确读取。但是，稍后，当我尝试将其转换为数据帧时，出现以下错误： Py4JJavaError:调用o423.0分区时出错。：java.io.IOException:HDFS URI不完整，没有主机：hdfs://XX.XX.XX.XX:X000 我用于创建数据帧的代码是： from pyspar

我正在尝试通过PySpark从HDFS读取csv文件。我正在使用以下代码：

path='hdfs://XX.XX.XX.XX:X000'

myrdd=sc.textFile(path)

该文件可以正确读取。但是，稍后，当我尝试将其转换为数据帧时，出现以下错误：

Py4JJavaError:调用o423.0分区时出错。：java.io.IOException:HDFS URI不完整，没有主机：hdfs://XX.XX.XX.XX:X000

我用于创建数据帧的代码是：

from pyspark import Row
instance=Row('feature1', 'feature2')
ins=myrdd.map(lambda r: instance(*r))
df = hc.createDataFrame(ins)
df.collect()

我要说的是，如果我对一个不存在的文件的路径稍加修改，假文件仍然可以以某种方式读取，这使我认为真实文件有问题，但我不能完全确定。这可能是配置问题吗？

在我的实例中，我必须提供完整的路径，即

val file=sc.textFile（“hdfs://localhost:9000/user/$username/input/file.csv”）

是否尝试提供文件名。您的URI似乎只是主机名和端口名。而您应该给出文件路径，通常hdfs路径如下hdfs://nameservice1/path_to_file_dir