Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 阿帕奇·纳奇不再爬行了_Java_Hadoop_Hbase_Web Crawler_Nutch - Fatal编程技术网

Java 阿帕奇·纳奇不再爬行了

Java 阿帕奇·纳奇不再爬行了,java,hadoop,hbase,web-crawler,nutch,Java,Hadoop,Hbase,Web Crawler,Nutch,我有一个双机集群。在一台机器上配置nutch,在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息,不再在上一个表中爬行 INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.n

我有一个双机集群。在一台机器上配置nutch,在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行的时候。它给出以下消息,不再在上一个表中爬行

INFO mapreduce.GoraRecordReader-gora.buffer.read.limit=10000 INFO crawl.FetchScheduleFactory-使用FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule

和下面的bug

错误存储.hbastore -[Ljava.lang.StackTraceeElement;@7ae0c96b

已提取文档,但未保存在hbase中。 但是,如果我在一个新表中抓取数据,它工作得很好,抓取正确,不会出现任何错误。我认为这不是一个新表的连接问题。我认为这是因为某些属性等


由于我不是apache nutch方面的专家,有谁能给我指点一下吗?

不太适合我的领域,但底层机器上的线程似乎已耗尽。

因为我也面临类似的问题。实际问题是regionserver Hbase deamon。因此,尝试重新启动它,因为它与默认seeting一起使用时会关闭,而且Hbase中的数据太多。F或更多信息,请参阅regionserver的日志文件。

Stackoverflow不是一个询问Nutch问题的好地方,请将其发送到邮件列表中。在我的印象中,Nutch2.X不如Nutch1.X可靠。我必须在确认之前对其进行更改