Web crawler 用坚果爬行时的视觉感受

Web crawler 用坚果爬行时的视觉感受,web-crawler,nutch,ioexception,Web Crawler,Nutch,Ioexception,在一天爬满坚果1.4后。。。最后我得到了下面的坏异常: . . . -finishing thread FetcherThread, activeThreads=0 -activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0 -activeThreads=0 Fetcher: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(J

在一天爬满坚果1.4后。。。最后我得到了下面的坏异常:

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

我有20个新闻站点,nutch的输入参数是:深度3和topN-1 我在linux的根目录中有足够的空间和大约4GB的ram 我如何解决这个问题?
谢谢。

我想你可能有这个问题:

其中提供的答复指出:

我们发现解决这种情况的答案是/tmp中的磁盘空间很可能不足。考虑使用另一个位置,或者可能为Hadoop.tMP.dir的另一个分区,它可以设置在NutCH-SIT.XML中,对于大的瞬态文件或使用Hadoop集群有很大的空间。p>
我已经为my/tmp指定了大空间,但没有任何更改,并且出现了相同的异常。是否存在任何错误配置?我不确定还有什么可能是错误的,但您是否可以确保您没有用完空间?查看tmp文件夹中有多少数据,并确认没有超过指定的空间。