“Nutch爬行后的Solr索引失败，报告”；索引器：java.io.IOException:作业失败&引用；_Java_Solr_Nutch

“Nutch爬行后的Solr索引失败，报告”；索引器：java.io.IOException:作业失败&引用；

java solr

“Nutch爬行后的Solr索引失败，报告”；索引器：java.io.IOException:作业失败&引用；,java,solr,nutch,Java,Solr,Nutch,我已经在ec2实例上集成了Nutch1.13和Solr6.5.1。我确实使用下面的cp命令将schema.xml复制到Solr中。我在nutch_home/conf文件夹中的nutch-site.xml中将localhost指定为elatic.host cp/usr/local/apache-nutch-1.13/conf/schema.xml/usr/local/apache-nutch-1.13/solr-6.5.1/server/solr/nutch/conf/ 此外，自solr 6创建托

我已经在ec2实例上集成了Nutch1.13和Solr6.5.1。我确实使用下面的cp命令将schema.xml复制到Solr中。我在nutch_home/conf文件夹中的nutch-site.xml中将localhost指定为elatic.host

cp/usr/local/apache-nutch-1.13/conf/schema.xml/usr/local/apache-nutch-1.13/solr-6.5.1/server/solr/nutch/conf/

此外，自solr 6创建托管模式以来，每次都会创建托管模式。一切正常。我试过的命令是

[ec2-user@ip-172-31-16-137 apache-nutch-1.13]$bin/crawl-i-D solr.server.url=url/crawl 1

在执行上述命令之前，一切看起来都很好。我完全被困在最后一步了

运行时出错： /usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=：//35.160.82.191:8983/solr/#/nutch/crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733 失败，退出值为255

提前谢谢

更新我在conf/nutch-site.xml中更改了以下属性

<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-html|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>

nutch site.xml

不需要复制到Solr，只需将

schema.xml

文件复制到Solr，即可为来自nutch的数据指定所需的模式。如果您使用的是Solr而不是ES，则不需要此参数

elatic.host

。检查

logs/hadoop.log

文件以查看是否有关于异常的更多数据，当然，检查Solr端的日志，此错误通常意味着Solr配置有问题，缺少字段等。在这种情况下，由于您没有复制schema.xml，Nutch也没有利用Solr 6上的托管模式，Solr肯定在抱怨缺少字段，而且您的Solr URL（包括

字符）看起来不太好，这就是Solr Admin UI在浏览器中显示数据的方式，但是从Nutch/terminal使用数据应该是

/Solr/Nutch

顺便说一句，尽管在最近的Solr版本中某些路径已经更改，但检查仍然是一个很好的集成工作指南

nutch site.xml不需要复制到Solr，只需使用schema.xml
文件来指定来自nutch的数据所需的模式。如果您使用的是Solr而不是ES，则不需要此参数elatic.host
。检查logs/hadoop.log
文件以查看是否有关于异常的更多数据，当然，检查Solr端的日志，此错误通常意味着Solr配置有问题，缺少字段等。在这种情况下，由于您没有复制schema.xml，Nutch也没有利用Solr 6上的托管模式，Solr肯定在抱怨缺少字段，而且您的Solr URL（包括#
字符）看起来不太好，这就是Solr Admin UI在浏览器中显示数据的方式，但是从Nutch/terminal使用数据应该是/Solr/Nutch

顺便说一句，尽管最近的Solr版本中有些路径已经更改，但检查仍然是一个很好的集成工作指南段目录已完成：crawl/segments/20170519074733。索引器：从2017-05-19 07:52:41开始索引器：删除丢失的文档：假索引器：URL筛选：假索引器：URL规范化：假活动索引器：ElasticIndexWriter elastic.cluster:弹性前缀cluster elastic.host:主机名elastic.port:端口elastic.index:弹性索引命令elastic.max.bulk.docs:弹性批量索引文档计数。（默认值250）elastic.max.bulk.size：弹性批量索引长度（字节）。（默认值2500500）elastic.index.backoff.millis：弹性批量指数退避初始延迟（毫秒）。（默认值100）elastic.Index.backoff.retries：弹性批量指数退避最大重试次数。（默认值为10）运行时出错：/usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733失败，退出值为255。如果可能，请清理索引/usr/local/apache-nutch-1.13/bin/nutch clean-Dsolr.server.url=//35.160.82.191:8983/solr/nutch/crawl/crawdb solrindex:删除2个文档清理作业时出错：java.io.IOException:作业失败！org.apache.nutch.indexer.CleaningJob.delete（CleaningJob.java:174）org.apache.nutch.indexer.CleaningJob.run（CleaningJob.java:197）org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:70）org.apache.nutch.indexer.CleaningJob.main（CleaningJob.java:208）段目录已完成：爬网/段/20170519074733。索引器：从2017-05-19 07:52:41开始索引器：删除丢失的文档：假索引器：URL筛选：假索引器：URL规范化：假活动索引器：ElasticIndexWriter elastic.cluster:弹性前缀cluster elastic.host:主机名elastic.port:端口elastic.index:弹性索引命令elastic.max.bulk.docs:弹性批量索引文档计数。（默认值250）elastic.max.bulk.size：弹性批量索引长度（字节）。（默认值2500500）elastic.index.backoff.millis：弹性批量指数退避初始延迟（毫秒）。（默认值100）elastic.Index.backoff.retries：弹性批量指数退避最大重试次数。（默认值为10）运行时出错：/usr/local/apache-nutch-1.13/bin/nutch index-Dsolr.server.url=crawl/crawdb-linkdb crawl/linkdb crawl/segments/20170519074733失败，退出值为255。如果可能，请清理索引/usr/local/apache-nutch-1.13/bin/nutch clean-Dsolr.server.url=//35.160.82.191:8983/solr/nutch/crawl/crawdb solrindex:删除2个文档清理作业时出错：java.io.IOException:作业失败！org.apache.nutch.indexer.CleaningJob.delete（CleaningJob.java:174）org.apache.nutch.indexer.CleaningJob.run（CleaningJob.java:197）org.apache.hadoop.util.ToolRunner.run（太
[ec2-user@ip-172-31-16-137 apache-nutch-1.13]$ bin/crawl -i -D solr.server.url=://35.160.82.191:8983/solr/nutch/ urls/ crawl  1