Hadoop 使用WebHDFS读取文件

Hadoop 使用WebHDFS读取文件,hadoop,hdfs,webhdfs,Hadoop,Hdfs,Webhdfs,HDFS上存在一个名为“output.json”的输出文件夹,其中包含以下文件 |- _SUCCESS \- part-r-00000-3c9a6268-ff29-4a76-8d74-8c867e7f0f0f.json 有时它包含更多的“part-*”文件 读取此文件夹的正确方式是什么?我猜应该是这样的 read("path/to/output.json") // and rest should be taken care off 注意:HDFS驻留在远程服务器上我认为您可以使用open&r

HDFS上存在一个名为“output.json”的输出文件夹,其中包含以下文件

|- _SUCCESS
\- part-r-00000-3c9a6268-ff29-4a76-8d74-8c867e7f0f0f.json
有时它包含更多的“part-*”文件

读取此文件夹的正确方式是什么?我猜应该是这样的

read("path/to/output.json") // and rest should be taken care off

注意:HDFS驻留在远程服务器上

我认为您可以使用open&read(“path/to/file/part*.json”)查看:谢谢-尽管有多个部分。我希望它们都合并成一个,对吗?然后你必须从命令行手动执行此操作,你可以执行如下操作:hadoop fs-cat/path/to/your/data/part*.json>>/your/local/directory/combined.json,然后:hadoop fs-put/your/local/directory/combined.json/your/hdfs/path/hmmm。当然可以。谢谢