Java 拒绝url'；基于Nutch中的条件获取后的_Java_Web Scraping_Web Crawler_Nutch

Java 拒绝url'；基于Nutch中的条件获取后的

java web-scraping web-crawler

Java 拒绝url'；基于Nutch中的条件获取后的,java,web-scraping,web-crawler,nutch,Java,Web Scraping,Web Crawler,Nutch,我想知道是否可以根据条件（例如发布日期或时间）过滤获取的url。我知道我们可以通过regex-urlfilter过滤url以获取在我的情况下，我不想索引旧文档。因此，如果文件在2017年之前发布，则必须拒绝。是否有任何日期过滤器插件需要或它已经可用任何帮助都将不胜感激。提前感谢。如果您只想避免索引旧文档，您可以编写自己的索引过滤器，以检查您的状况并避免索引文档。您没有提到您的Nutch版本，但假设您使用的是v1（它将在下一个版本中准备好），它将使用JEXL表达式提供这一开箱即用的功能，以允许

我想知道是否可以根据条件（例如发布日期或时间）过滤获取的url。我知道我们可以通过

regex-urlfilter

过滤url以获取

在我的情况下，我不想索引旧文档。因此，如果文件在2017年之前发布，则必须拒绝。是否有任何日期过滤器插件需要或它已经可用

任何帮助都将不胜感激。提前感谢。

如果您只想避免索引旧文档，您可以编写自己的

索引过滤器

，以检查您的状况并避免索引文档。您没有提到您的Nutch版本，但假设您使用的是v1（它将在下一个版本中准备好），它将使用JEXL表达式提供这一开箱即用的功能，以允许/防止对文档进行索引

如果你能抓住公关和测试它，并提供一些反馈将是惊人的

如果需要，您可以编写自己的自定义插件，并且可以检查

mimetype过滤器

，查看与您所需类似的内容（在本例中，我们基于mimetype应用过滤）

另外还有一个警告，Nutch使用的

fetchTime

或

modifiedTime

来自Web服务器在获取资源时发送的头，请记住这些值不应被信任（除非您100%确定），因为在大多数情况下，您会得到错误的日期。提出了一种从页面内容中提取发布日期的更好方法，或者您可以实现自己的解析器

请记住，使用这种方法，您仍然可以获取/解析旧文档，只需跳过索引步骤。

谢谢您的回复。我已经有了一个自定义索引过滤器插件。目前，我通过跳过对旧文档的索引，在这个插件中添加了日期过滤器选项。我有一个解析插件，可以从网站中提取所有相关细节。因此，我从插件中获取了文档发布日期，并在索引器插件中使用该值进行过滤。还有其他选择吗？现在，我在解析和索引阶段传递这个文档（因为它很旧，所以实际上不需要）。我想在抓取阶段之后跳过它。问题是，抓取者的责任只是抓取文档，而不是对随后发生的事情采取行动。如果您想保持默认的Nutch行为，您仍然需要解析文档以获得有用的信息（日期），然后您可以决定如何处理文档。您可以编写自己的fetcher，但维护起来并不容易。请记住，在解析旧文档之后，您仍然可以找到指向最近文档的有效大纲链接。