Java 阿帕奇·纳奇不再爬行了
我有一个双机集群。在一台机器上配置nutch,在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息,不再在上一个表中爬行 INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule 和下面的bug 错误存储.hbastore -[Ljava.lang.StackTraceeElement;@7ae0c96b 已提取文档,但未保存在hbase中。 但是,如果我在一个新表中抓取数据,它工作得很好,抓取正确,不会出现任何错误。我认为这不是一个新表的连接问题。我认为这是因为某些属性等Java 阿帕奇·纳奇不再爬行了,java,hadoop,hbase,web-crawler,nutch,Java,Hadoop,Hbase,Web Crawler,Nutch,我有一个双机集群。在一台机器上配置nutch,在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息,不再在上一个表中爬行 INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.n
由于我不是apache nutch方面的专家,有谁能给我指点一下吗?不太适合我的领域,但底层机器上的线程似乎已耗尽。因为我也面临类似的问题。实际问题是regionserver Hbase deamon。因此,尝试重新启动它,因为它与默认seeting一起使用时会关闭,而且Hbase中的数据太多。F或更多信息,请参阅regionserver的日志文件。Stackoverflow不是一个询问Nutch问题的好地方,请将其发送到邮件列表中。在我的印象中,Nutch2.X不如Nutch1.X可靠。我必须在确认之前对其进行更改