Java 拒绝url';基于Nutch中的条件获取后的

Java 拒绝url';基于Nutch中的条件获取后的,java,web-scraping,web-crawler,nutch,Java,Web Scraping,Web Crawler,Nutch,我想知道是否可以根据条件(例如发布日期或时间)过滤获取的url。我知道我们可以通过regex-urlfilter过滤url以获取 在我的情况下,我不想索引旧文档。因此,如果文件在2017年之前发布,则必须拒绝。是否有任何日期过滤器插件需要或它已经可用 任何帮助都将不胜感激。提前感谢。如果您只想避免索引旧文档,您可以编写自己的索引过滤器,以检查您的状况并避免索引文档。您没有提到您的Nutch版本,但假设您使用的是v1(它将在下一个版本中准备好),它将使用JEXL表达式提供这一开箱即用的功能,以允许

我想知道是否可以根据条件(例如发布日期或时间)过滤获取的url。我知道我们可以通过
regex-urlfilter
过滤url以获取

在我的情况下,我不想索引旧文档。因此,如果文件在2017年之前发布,则必须拒绝。是否有任何日期过滤器插件需要或它已经可用


任何帮助都将不胜感激。提前感谢。

如果您只想避免索引旧文档,您可以编写自己的
索引过滤器
,以检查您的状况并避免索引文档。您没有提到您的Nutch版本,但假设您使用的是v1(它将在下一个版本中准备好),它将使用JEXL表达式提供这一开箱即用的功能,以允许/防止对文档进行索引

如果你能抓住公关和测试它,并提供一些反馈将是惊人的

如果需要,您可以编写自己的自定义插件,并且可以检查
mimetype过滤器
,查看与您所需类似的内容(在本例中,我们基于mimetype应用过滤)

另外还有一个警告,Nutch使用的
fetchTime
modifiedTime
来自Web服务器在获取资源时发送的头,请记住这些值不应被信任(除非您100%确定),因为在大多数情况下,您会得到错误的日期。提出了一种从页面内容中提取发布日期的更好方法,或者您可以实现自己的解析器


请记住,使用这种方法,您仍然可以获取/解析旧文档,只需跳过索引步骤。

谢谢您的回复。我已经有了一个自定义索引过滤器插件。目前,我通过跳过对旧文档的索引,在这个插件中添加了日期过滤器选项。我有一个解析插件,可以从网站中提取所有相关细节。因此,我从插件中获取了文档发布日期,并在索引器插件中使用该值进行过滤。还有其他选择吗?现在,我在解析和索引阶段传递这个文档(因为它很旧,所以实际上不需要)。我想在抓取阶段之后跳过它。问题是,抓取者的责任只是抓取文档,而不是对随后发生的事情采取行动。如果您想保持默认的Nutch行为,您仍然需要解析文档以获得有用的信息(日期),然后您可以决定如何处理文档。您可以编写自己的fetcher,但维护起来并不容易。请记住,在解析旧文档之后,您仍然可以找到指向最近文档的有效大纲链接。