Calendar 如何配置Nutch以避免抓取无意义的日历网页_Calendar_Nutch

Calendar 如何配置Nutch以避免抓取无意义的日历网页

calendar

Calendar 如何配置Nutch以避免抓取无意义的日历网页,calendar,nutch,Calendar,Nutch,我正在使用Nutch为网站编制索引。我注意到Nutch抓取了一些垃圾网页，比如http://******/category/events/2015-11。本网页是关于2015年11月11日发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。有人可能会说，我可以使用正则表达式来避免这种情况。然而，由于日历网页的命名模式并不总是相同的，因此没有办法为此编写一个完美的正则表达式。我知道Heritrix（一个互联网档案爬虫）有这样的功能来避免对无意义的日历网页进行爬网。有

我正在使用Nutch为网站编制索引。我注意到Nutch抓取了一些垃圾网页，比如http://******/category/events/2015-11。本网页是关于2015年11月11日发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。有人可能会说，我可以使用正则表达式来避免这种情况。然而，由于日历网页的命名模式并不总是相同的，因此没有办法为此编写一个完美的正则表达式。我知道Heritrix（一个互联网档案爬虫）有这样的功能来避免对无意义的日历网页进行爬网。有人解决了这个问题吗？

除了正则表达式url过滤之外，没有其他方法可以做到这一点。每当看到不需要的页面通过爬网内容时，您可以不断向正则表达式文件添加新模式。

因此，似乎没有智能的方法可以做到这一点。