Web crawler Nutch地图减少67%的工作停滞

Web crawler Nutch地图减少67%的工作停滞,web-crawler,nutch,solrcloud,Web Crawler,Nutch,Solrcloud,我正在使用Nutch1.17在本地机器上抓取网站并在Solr中索引数据。最初,我将参数设置为topN=2,depth=2,爬行成功。然后,我将参数更改为topN=3,depth=3,但map reduce中的reduce过程仍停留在67%。这一切都是用4GB内存运行的 然后,我尝试将RAM设置为8GB,但同样的问题仍然存在。问题是什么?我如何进一步分类?请帮忙 以下是日志: 2021-04-30 17:58:58432信息mapreduce.Job-用于跟踪 工作:http://localhos

我正在使用Nutch1.17在本地机器上抓取网站并在Solr中索引数据。最初,我将参数设置为topN=2,depth=2,爬行成功。然后,我将参数更改为topN=3,depth=3,但map reduce中的reduce过程仍停留在67%。这一切都是用4GB内存运行的

然后,我尝试将RAM设置为8GB,但同样的问题仍然存在。问题是什么?我如何进一步分类?请帮忙

以下是日志:

2021-04-30 17:58:58432信息mapreduce.Job-用于跟踪 工作:http://localhost:8080/ 2021-04-30 17:58:58432信息 mapreduce.Job-正在运行的作业:Job_local71316116_0001 2021-04-30 17:58:58643 INFO regex.RegexURLNormalizer-找不到的规则 作用域“索引器”,使用默认2021-04-30 17:58:58752信息 regex.RegexURLNormalizer-找不到作用域“索引器”的规则,使用 默认2021-04-30 17:58:58840信息regex.RegexURLNormalizer-无法 使用默认值2021-04-30 17:58:58890查找作用域“索引器”的规则 INFO regex.RegexURLNormalizer-找不到作用域“索引器”的规则, 使用默认值2021-04-30 17:58:58929 INFO regex.RegexURLNormalizer- 使用默认2021-04-30找不到作用域“索引器”的规则 17:58:58979警告实施度量系统实施-作业跟踪器度量系统 已经初始化!2021-04-30 17:58:59020信息 indexer.IndexWriters-索引编写器 org.apache.nutch.indexwriter.solr.SolrIndexWriter已识别。 2021-04-30 17:58:59057警告交换。交换-没有交换 配置。文档将被发送到所有索引编写器。 2021-04-30 17:58:59435信息mapreduce.作业-作业 在uber模式下运行的作业\u local71316116\u 0001:false 2021-04-30 17:58:59437信息mapreduce.作业-地图100%减少0%2021-04-30 17:59:11444信息mapreduce.作业-地图100%减少67%


索引器作业在reduce阶段的最后三分之一开始向Solr发送文档。根据是否为大型文档和字段编制索引,此阶段可能比索引器作业的前几个阶段慢。寻找潜在原因:

  • 确认Solr已启动且未报告错误
  • 使用实用程序“jstack”获取索引器作业挂起的确切信息
  • topN=3-这意味着您每个周期只能爬行和索引3页。这使得问题很容易重现:您可以使用工具
    bin/nutch indexchecker
    分别发送获取和索引这3个URL。获取URL时会记录这些URL
  • 还要查看hadoop.log,它比stdout更详细,包含更多信息
1)solr已启动并正常运行。2) 我会和jstack核实一下。3) 我要试试这个。4) 我在hadoop.log中没有看到错误。有什么具体的我可以在日志中查到的,请告诉我。