Nutch获取的页面不是';t被编入Solr

Nutch获取的页面不是';t被编入Solr,solr,indexing,nutch,Solr,Indexing,Nutch,好的,我正在尝试设置nutch来抓取一个站点并将页面索引到solr中。我目前正在Solr4.10.2中使用Nutch1.9 我遵循了以下说明: 爬行看起来很顺利,但是当我在Solr上检查集合(使用web ui)时,没有索引的文档…知道我可以在哪里检查问题吗 发现我的问题,我会留下它作为答案,以防其他人有相同的症状: 我的问题是代理配置。我的linux机器将代理配置为应用于整个系统,但我还必须将Nutch配置为使用相同的代理。一旦我改变了,它就开始工作了 配置在config/nutch-defau

好的,我正在尝试设置nutch来抓取一个站点并将页面索引到solr中。我目前正在Solr4.10.2中使用Nutch1.9 我遵循了以下说明:


爬行看起来很顺利,但是当我在Solr上检查集合(使用web ui)时,没有索引的文档…知道我可以在哪里检查问题吗

发现我的问题,我会留下它作为答案,以防其他人有相同的症状:

我的问题是代理配置。我的linux机器将代理配置为应用于整个系统,但我还必须将Nutch配置为使用相同的代理。一旦我改变了,它就开始工作了

配置在config/nutch-default.xml下

编辑更多信息

更具体地说,以下是我必须更改的代理配置:

<property>
  <name>http.proxy.host</name>
  <value>xxx.xxx.xxx</value>
  <description>The proxy hostname.  If empty, no proxy is used.</description>
</property>

http.proxy.host
xxx.xxx.xxx
代理主机名。如果为空,则不使用代理。

对不起,您能更具体地说明您更改了什么选项以及如何更改吗?@Mateva我添加了示例代码,尽管如果安装附带的是nutch-default.xml文件,那么您只需查找“proxy”一词即可找到它。