Calendar 如何配置Nutch以避免抓取无意义的日历网页

Calendar 如何配置Nutch以避免抓取无意义的日历网页,calendar,nutch,Calendar,Nutch,我正在使用Nutch为网站编制索引。我注意到Nutch抓取了一些垃圾网页,比如http://******/category/events/2015-11。本网页是关于2015年11月11日发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。有人可能会说,我可以使用正则表达式来避免这种情况。然而,由于日历网页的命名模式并不总是相同的,因此没有办法为此编写一个完美的正则表达式。我知道Heritrix(一个互联网档案爬虫)有这样的功能来避免对无意义的日历网页进行爬网。有

我正在使用Nutch为网站编制索引。我注意到Nutch抓取了一些垃圾网页,比如http://******/category/events/2015-11。本网页是关于2015年11月11日发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。有人可能会说,我可以使用正则表达式来避免这种情况。然而,由于日历网页的命名模式并不总是相同的,因此没有办法为此编写一个完美的正则表达式。我知道Heritrix(一个互联网档案爬虫)有这样的功能来避免对无意义的日历网页进行爬网。有人解决了这个问题吗?

除了正则表达式url过滤之外,没有其他方法可以做到这一点。每当看到不需要的页面通过爬网内容时,您可以不断向正则表达式文件添加新模式。

因此,似乎没有智能的方法可以做到这一点。