Web crawler Nutch如何避免CGI生成的爬网日历网页

Web crawler Nutch如何避免CGI生成的爬网日历网页,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch抓取一个大型网站 网页由CGI程序生成。大多数网页的URL包含诸如?id=2323&title=foo之类的表达式 我想抓取这些网页,因为它们包含许多有用的信息 然而,我面临的一个问题是,这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,如year=2030&month=12 这很愚蠢 我怎样才能避免这样的陷阱呢?编写多个正则表达式?将正则表达式模式添加到conf/regex urlfilter.txt中,以指定接受或拒绝URL的规则

我正在使用Nutch抓取一个大型网站

网页由CGI程序生成。大多数网页的URL包含诸如
?id=2323&title=foo
之类的表达式

我想抓取这些网页,因为它们包含许多有用的信息

然而,我面临的一个问题是,这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,如
year=2030&month=12

这很愚蠢


我怎样才能避免这样的陷阱呢?编写多个正则表达式?

将正则表达式模式添加到
conf/regex urlfilter.txt
中,以指定接受或拒绝URL的规则