Java 阿帕奇·纳奇不再爬行了_Java_Hadoop_Hbase_Web Crawler_Nutch

Java 阿帕奇·纳奇不再爬行了

java hadoop hbase web-crawler

Java 阿帕奇·纳奇不再爬行了,java,hadoop,hbase,web-crawler,nutch,Java,Hadoop,Hbase,Web Crawler,Nutch,我有一个双机集群。在一台机器上配置nutch，在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式，hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息，不再在上一个表中爬行 INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.n

我有一个双机集群。在一台机器上配置nutch，在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式，hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息，不再在上一个表中爬行

INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule

和下面的bug

错误存储.hbastore -[Ljava.lang.StackTraceeElement；@7ae0c96b

已提取文档，但未保存在hbase中。但是，如果我在一个新表中抓取数据，它工作得很好，抓取正确，不会出现任何错误。我认为这不是一个新表的连接问题。我认为这是因为某些属性等

由于我不是apache nutch方面的专家，有谁能给我指点一下吗？

不太适合我的领域，但底层机器上的线程似乎已耗尽。

因为我也面临类似的问题。实际问题是regionserver Hbase deamon。因此，尝试重新启动它，因为它与默认seeting一起使用时会关闭，而且Hbase中的数据太多。F或更多信息，请参阅regionserver的日志文件。

Stackoverflow不是一个询问Nutch问题的好地方，请将其发送到邮件列表中。在我的印象中，Nutch2.X不如Nutch1.X可靠。我必须在确认之前对其进行更改