Java 将nutch 2.3.1与solr 6.4.1集成,索引作业出现问题

Java 将nutch 2.3.1与solr 6.4.1集成,索引作业出现问题,java,solr,nutch,Java,Solr,Nutch,最近我正在学习Nutch,当我完成Nutch的一个Solr设置时。我想试着用Nutch爬行并索引到Solr。索引作业时发生错误。错误如下: SolrIndexerJob: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Expected content type application/octet-stream but got text/html;charset=iso-8859-1. at or

最近我正在学习Nutch,当我完成Nutch的一个Solr设置时。我想试着用Nutch爬行并索引到Solr。索引作业时发生错误。错误如下:

SolrIndexerJob: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:


Expected content type application/octet-stream but got text/html;charset=iso-8859-1.


at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:455)
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:197)
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)
at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:146)
at org.apache.nutch.indexer.IndexWriters.commit(IndexWriters.java:124)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:186)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)

如果有人能给我一些建议,我将不胜感激。提前感谢。

您需要指定Nutch集合或核心的Solr url,因此url
http://localhost:8983/solr/collection1
有道理。但是你应该使用每一种工具的Nutch's来让整个生态系统运转起来

Apache Avro 1.7.6
Apache Hadoop 1.2.1 and 2.5.2
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
Apache Cassandra 2.0.2
Apache Solr 4.10.3
MongoDB 2.6.X
Apache Accumlo 1.5.1
Apache Spark 1.4.1
我建议使用
Solr-5.2.1
作为它比
4.10.3
更新的版本,我已经在我的项目中使用了它。正如我所记得的,我在尝试使用Solr6+时遇到了与您相同的异常


祝你好运

当我运行命令bin/crawl urls 2时,上面的错误会被忽略,但是当我将命令更改为bin/crawl urls 2时,不会再发生错误,但是从nutch抓取的数据似乎不会汇集到solr。谢谢,我将对此进行测试