Plugins Nutch-如何使用Nutch仅抓取最近24小时内新添加的URL?

Plugins Nutch-如何使用Nutch仅抓取最近24小时内新添加的URL?,plugins,nutch,Plugins,Nutch,我使用的是Nutch 1.7,一切看起来都很好。然而,有一个大问题我不知道如何克服 如何只抓取最近24小时内新添加的URL。当然,我们可以使用自适应抓取,但我们希望有另一种更好的方法,我们现在还不知道 我们只需要在过去24小时内添加的网址,因为我们每天访问我们的源网站 请让我知道,是否可以配置和设置nutch来实现这一点,或者是否有一个专门用于在过去24小时内只对添加的URL进行爬网的插件 亲切问候,, Christian您可以通过解析HTML获得新的URL 您无法通过解析锚来指定锚的生存期 标

我使用的是Nutch 1.7,一切看起来都很好。然而,有一个大问题我不知道如何克服

如何只抓取最近24小时内新添加的URL。当然,我们可以使用自适应抓取,但我们希望有另一种更好的方法,我们现在还不知道

我们只需要在过去24小时内添加的网址,因为我们每天访问我们的源网站

请让我知道,是否可以配置和设置nutch来实现这一点,或者是否有一个专门用于在过去24小时内只对添加的URL进行爬网的插件

亲切问候,,
Christian

您可以通过解析HTML获得新的URL

您无法通过解析锚来指定锚的生存期 标签


你必须在数据库中有一个旧URL的列表,这样你就可以跳过它们了

如果不重新抓取旧的URL并寻找新的链接,您将如何发现新的URL?使用时间戳?我想。。。