Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Csv HDFS URI不完整,没有主机_Csv_Pyspark_Hdfs - Fatal编程技术网

Csv HDFS URI不完整,没有主机

Csv HDFS URI不完整,没有主机,csv,pyspark,hdfs,Csv,Pyspark,Hdfs,我正在尝试通过PySpark从HDFS读取csv文件。 我正在使用以下代码: path='hdfs://XX.XX.XX.XX:X000' myrdd=sc.textFile(path) 该文件可以正确读取。但是,稍后,当我尝试将其转换为数据帧时,出现以下错误: Py4JJavaError:调用o423.0分区时出错。 :java.io.IOException:HDFS URI不完整,没有主机:hdfs://XX.XX.XX.XX:X000 我用于创建数据帧的代码是: from pyspar

我正在尝试通过PySpark从HDFS读取csv文件。 我正在使用以下代码:

path='hdfs://XX.XX.XX.XX:X000'

myrdd=sc.textFile(path)
该文件可以正确读取。但是,稍后,当我尝试将其转换为数据帧时,出现以下错误:

Py4JJavaError:调用o423.0分区时出错。 :java.io.IOException:HDFS URI不完整,没有主机:hdfs://XX.XX.XX.XX:X000

我用于创建数据帧的代码是:

from pyspark import Row
instance=Row('feature1', 'feature2')
ins=myrdd.map(lambda r: instance(*r))
df = hc.createDataFrame(ins)
df.collect()

我要说的是,如果我对一个不存在的文件的路径稍加修改,假文件仍然可以以某种方式读取,这使我认为真实文件有问题,但我不能完全确定。这可能是配置问题吗?

在我的实例中,我必须提供完整的路径,即


val file=sc.textFile(“hdfs://localhost:9000/user/$username/input/file.csv”)

是否尝试提供文件名。您的URI似乎只是主机名和端口名。而您应该给出文件路径,通常hdfs路径如下hdfs://nameservice1/path_to_file_dir