org.apache.hadoop.mapred.InvalidInputException:输入路径不存在

org.apache.hadoop.mapred.InvalidInputException:输入路径不存在,hadoop,nutch,Hadoop,Nutch,我已经用Hadoop的单节点设置了ApacheNutch。当我执行爬网命令时,它开始爬网。但是,几分钟后会抛出异常 原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在 不存在:(请参考图1) 根据异常情况,这是无效路径 hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate 实际上,hdfs中没有这样的路径 这个DRWXRW

我已经用Hadoop的单节点设置了ApacheNutch。当我执行爬网命令时,它开始爬网。但是,几分钟后会抛出异常

原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在 不存在:(请参考图1)

根据异常情况,这是无效路径 hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate

实际上,hdfs中没有这样的路径

这个DRWXRWX是怎么来的

在hdfs中,我可以看到以下路径

hdfs://localhost:54310/user/duleendra/TestCrawl/segments/20150506222506/crawl_generate

(请同时参考图2)

我错过什么了吗

谢谢


Duleendra

我认为这是基于Unix的系统(如OSX和FreeBsd)中的一个缺陷。纳奇的爬行在他们身上不起作用。试试ubuntu。

DRWXRWX实际上是folderYes的许可,但不知道DRWXRWX是如何使用此路径的hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generateSeems 就像在shell脚本中调用
ls-al
,但是期望
ls
输出并解释结果你是说crawl.sh脚本?我不知道,生成路径的是脚本:)