Web crawler Nutch如何避免CGI生成的爬网日历网页_Web Crawler_Nutch

Web crawler Nutch如何避免CGI生成的爬网日历网页

web-crawler

Web crawler Nutch如何避免CGI生成的爬网日历网页,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch抓取一个大型网站网页由CGI程序生成。大多数网页的URL包含诸如？id=2323&title=foo之类的表达式我想抓取这些网页，因为它们包含许多有用的信息然而，我面临的一个问题是，这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页，如year=2030&month=12 这很愚蠢我怎样才能避免这样的陷阱呢？编写多个正则表达式？将正则表达式模式添加到conf/regex urlfilter.txt中，以指定接受或拒绝URL的规则

我正在使用Nutch抓取一个大型网站

网页由CGI程序生成。大多数网页的URL包含诸如

？id=2323&title=foo

之类的表达式

我想抓取这些网页，因为它们包含许多有用的信息

然而，我面临的一个问题是，这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页，如

year=2030&month=12

这很愚蠢

我怎样才能避免这样的陷阱呢？编写多个正则表达式？

将正则表达式模式添加到

conf/regex urlfilter.txt

中，以指定接受或拒绝URL的规则