Web crawler Nutch地图减少67%的工作停滞_Web Crawler_Nutch_Solrcloud

Web crawler Nutch地图减少67%的工作停滞

web-crawler

Web crawler Nutch地图减少67%的工作停滞,web-crawler,nutch,solrcloud,Web Crawler,Nutch,Solrcloud,我正在使用Nutch1.17在本地机器上抓取网站并在Solr中索引数据。最初，我将参数设置为topN=2，depth=2，爬行成功。然后，我将参数更改为topN=3，depth=3，但map reduce中的reduce过程仍停留在67%。这一切都是用4GB内存运行的然后，我尝试将RAM设置为8GB，但同样的问题仍然存在。问题是什么？我如何进一步分类？请帮忙以下是日志： 2021-04-30 17:58:58432信息mapreduce.Job-用于跟踪工作：http://localhos

我正在使用Nutch1.17在本地机器上抓取网站并在Solr中索引数据。最初，我将参数设置为topN=2，depth=2，爬行成功。然后，我将参数更改为topN=3，depth=3，但map reduce中的reduce过程仍停留在67%。这一切都是用4GB内存运行的

然后，我尝试将RAM设置为8GB，但同样的问题仍然存在。问题是什么？我如何进一步分类？请帮忙

以下是日志：

2021-04-30 17:58:58432信息mapreduce.Job-用于跟踪工作：http://localhost:8080/ 2021-04-30 17:58:58432信息 mapreduce.Job-正在运行的作业：Job_local71316116_0001 2021-04-30 17:58:58643 INFO regex.RegexURLNormalizer-找不到的规则作用域“索引器”，使用默认2021-04-30 17:58:58752信息 regex.RegexURLNormalizer-找不到作用域“索引器”的规则，使用默认2021-04-30 17:58:58840信息regex.RegexURLNormalizer-无法使用默认值2021-04-30 17:58:58890查找作用域“索引器”的规则 INFO regex.RegexURLNormalizer-找不到作用域“索引器”的规则，使用默认值2021-04-30 17:58:58929 INFO regex.RegexURLNormalizer- 使用默认2021-04-30找不到作用域“索引器”的规则 17:58:58979警告实施度量系统实施-作业跟踪器度量系统已经初始化！2021-04-30 17:58:59020信息 indexer.IndexWriters-索引编写器 org.apache.nutch.indexwriter.solr.SolrIndexWriter已识别。 2021-04-30 17:58:59057警告交换。交换-没有交换配置。文档将被发送到所有索引编写器。 2021-04-30 17:58:59435信息mapreduce.作业-作业在uber模式下运行的作业\u local71316116\u 0001:false 2021-04-30 17:58:59437信息mapreduce.作业-地图100%减少0%2021-04-30 17:59:11444信息mapreduce.作业-地图100%减少67%

索引器作业在reduce阶段的最后三分之一开始向Solr发送文档。根据是否为大型文档和字段编制索引，此阶段可能比索引器作业的前几个阶段慢。寻找潜在原因：

确认Solr已启动且未报告错误
使用实用程序“jstack”获取索引器作业挂起的确切信息
topN=3-这意味着您每个周期只能爬行和索引3页。这使得问题很容易重现：您可以使用工具
```
bin/nutch indexchecker
```
分别发送获取和索引这3个URL。获取URL时会记录这些URL
还要查看hadoop.log，它比stdout更详细，包含更多信息

1）solr已启动并正常运行。2）我会和jstack核实一下。3）我要试试这个。4）我在hadoop.log中没有看到错误。有什么具体的我可以在日志中查到的，请告诉我。