Apache 如何在Nutch to Solr索引期间跳过内容字段为空的文档?

Apache 如何在Nutch to Solr索引期间跳过内容字段为空的文档?,apache,solr,indexing,nutch,web-crawler,Apache,Solr,Indexing,Nutch,Web Crawler,在solrindex期间,如何告诉Nutch跳过那些内容字段为空的文档的索引 我发现了,但是index-omit插件只允许Nutch过滤那些没有特定metatag字段的文档,而不是像content这样的一般字段 您可能需要实现一个新的Nutch筛选器,该筛选器在文档内容为空时丢弃文档 您可以通过以下链接获得有关如何编写插件的更多信息: 编辑: 我写了一个简单的插件作为例子。 它查看“内容”字段,如果它为空,它将忽略该文档,而不为其编制索引 您可以从这里获得:是否有任何现有的插件可以完成这项工作?

在solrindex期间,如何告诉Nutch跳过那些内容字段为空的文档的索引


我发现了,但是index-omit插件只允许Nutch过滤那些没有特定metatag字段的文档,而不是像content这样的一般字段

您可能需要实现一个新的Nutch筛选器,该筛选器在文档内容为空时丢弃文档

您可以通过以下链接获得有关如何编写插件的更多信息:

编辑:
我写了一个简单的插件作为例子。 它查看“内容”字段,如果它为空,它将忽略该文档,而不为其编制索引


您可以从这里获得:

是否有任何现有的插件可以完成这项工作?@codemonkey我已经添加了一个简单的插件,应该可以用于这项工作。