Web crawler 用坚果爬行时的视觉感受_Web Crawler_Nutch_Ioexception

Web crawler 用坚果爬行时的视觉感受

web-crawler

Web crawler 用坚果爬行时的视觉感受,web-crawler,nutch,ioexception,Web Crawler,Nutch,Ioexception,在一天爬满坚果1.4后。。。最后我得到了下面的坏异常： . . . -finishing thread FetcherThread, activeThreads=0 -activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0 -activeThreads=0 Fetcher: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(J

在一天爬满坚果1.4后。。。最后我得到了下面的坏异常：

.
.
.

-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.

我有20个新闻站点，nutch的输入参数是：深度3和topN-1 我在linux的根目录中有足够的空间和大约4GB的ram 我如何解决这个问题？

谢谢。

我想你可能有这个问题：

其中提供的答复指出：

我们发现解决这种情况的答案是/tmp中的磁盘空间很可能不足。考虑使用另一个位置，或者可能为Hadoop.tMP.dir的另一个分区，它可以设置在NutCH-SIT.XML中，对于大的瞬态文件或使用Hadoop集群有很大的空间。p>

我已经为my/tmp指定了大空间，但没有任何更改，并且出现了相同的异常。是否存在任何错误配置？我不确定还有什么可能是错误的，但您是否可以确保您没有用完空间？查看tmp文件夹中有多少数据，并确认没有超过指定的空间。