“Nutch爬行后的Solr索引失败,报告”;索引器:java.io.IOException:作业失败&引用;

“Nutch爬行后的Solr索引失败,报告”;索引器:java.io.IOException:作业失败&引用;,java,solr,nutch,Java,Solr,Nutch,我已经在ec2实例上集成了Nutch1.13和Solr6.5.1。我确实使用下面的cp命令将schema.xml复制到Solr中。我在nutch_home/conf文件夹中的nutch-site.xml中将localhost指定为elatic.host cp/usr/local/apache-nutch-1.13/conf/schema.xml/usr/local/apache-nutch-1.13/solr-6.5.1/server/solr/nutch/conf/ 此外,自solr 6创建托

我已经在ec2实例上集成了Nutch1.13和Solr6.5.1。我确实使用下面的cp命令将schema.xml复制到Solr中。我在nutch_home/conf文件夹中的nutch-site.xml中将localhost指定为elatic.host

cp/usr/local/apache-nutch-1.13/conf/schema.xml/usr/local/apache-nutch-1.13/solr-6.5.1/server/solr/nutch/conf/

此外,自solr 6创建托管模式以来,每次都会创建托管模式。一切正常。我试过的命令是

[ec2-user@ip-172-31-16-137 apache-nutch-1.13]$bin/crawl-i-D solr.server.url=url/crawl 1

在执行上述命令之前,一切看起来都很好。我完全被困在最后一步了

运行时出错: /usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=://35.160.82.191:8983/solr/#/nutch/crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733 失败,退出值为255

提前谢谢

更新 我在conf/nutch-site.xml中更改了以下属性

<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-html|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>

nutch site.xml
不需要复制到Solr,只需将
schema.xml
文件复制到Solr,即可为来自nutch的数据指定所需的模式。如果您使用的是Solr而不是ES,则不需要此参数
elatic.host
。检查
logs/hadoop.log
文件以查看是否有关于异常的更多数据,当然,检查Solr端的日志,此错误通常意味着Solr配置有问题,缺少字段等。在这种情况下,由于您没有复制schema.xml,Nutch也没有利用Solr 6上的托管模式,Solr肯定在抱怨缺少字段,而且您的Solr URL(包括
#
字符)看起来不太好,这就是Solr Admin UI在浏览器中显示数据的方式,但是从Nutch/terminal使用数据应该是
/Solr/Nutch


顺便说一句,尽管在最近的Solr版本中某些路径已经更改,但检查仍然是一个很好的集成工作指南

nutch site.xml不需要复制到Solr,只需使用
schema.xml
文件来指定来自nutch的数据所需的模式。如果您使用的是Solr而不是ES,则不需要此参数
elatic.host
。检查
logs/hadoop.log
文件以查看是否有关于异常的更多数据,当然,检查Solr端的日志,此错误通常意味着Solr配置有问题,缺少字段等。在这种情况下,由于您没有复制schema.xml,Nutch也没有利用Solr 6上的托管模式,Solr肯定在抱怨缺少字段,而且您的Solr URL(包括
#
字符)看起来不太好,这就是Solr Admin UI在浏览器中显示数据的方式,但是从Nutch/terminal使用数据应该是
/Solr/Nutch


顺便说一句,尽管最近的Solr版本中有些路径已经更改,但检查仍然是一个很好的集成工作指南

段目录已完成:crawl/segments/20170519074733。索引器:从2017-05-19 07:52:41开始索引器:删除丢失的文档:假索引器:URL筛选:假索引器:URL规范化:假活动索引器:ElasticIndexWriter elastic.cluster:弹性前缀cluster elastic.host:主机名elastic.port:端口elastic.index:弹性索引命令elastic.max.bulk.docs:弹性批量索引文档计数。(默认值250)elastic.max.bulk.size:弹性批量索引长度(字节)。(默认值2500500)elastic.index.backoff.millis:弹性批量指数退避初始延迟(毫秒)。(默认值100)elastic.Index.backoff.retries:弹性批量指数退避最大重试次数。(默认值为10)运行时出错:/usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733失败,退出值为255。如果可能,请清理索引/usr/local/apache-nutch-1.13/bin/nutch clean-Dsolr.server.url=//35.160.82.191:8983/solr/nutch/crawl/crawdb solrindex:删除2个文档清理作业时出错:java.io.IOException:作业失败!org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:174)org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197)org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208)段目录已完成:爬网/段/20170519074733。索引器:从2017-05-19 07:52:41开始索引器:删除丢失的文档:假索引器:URL筛选:假索引器:URL规范化:假活动索引器:ElasticIndexWriter elastic.cluster:弹性前缀cluster elastic.host:主机名elastic.port:端口elastic.index:弹性索引命令elastic.max.bulk.docs:弹性批量索引文档计数。(默认值250)elastic.max.bulk.size:弹性批量索引长度(字节)。(默认值2500500)elastic.index.backoff.millis:弹性批量指数退避初始延迟(毫秒)。(默认值100)elastic.Index.backoff.retries:弹性批量指数退避最大重试次数。(默认值为10)运行时出错:/usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733失败,退出值为255。如果可能,请清理索引/usr/local/apache-nutch-1.13/bin/nutch clean-Dsolr.server.url=//35.160.82.191:8983/solr/nutch/crawl/crawdb solrindex:删除2个文档清理作业时出错:java.io.IOException:作业失败!org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:174)org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197)org.apache.hadoop.util.ToolRunner.run(太
[ec2-user@ip-172-31-16-137 apache-nutch-1.13]$ bin/crawl -i -D solr.server.url=://35.160.82.191:8983/solr/nutch/ urls/ crawl  1