Web crawler Nutch如何避免CGI生成的爬网日历网页
我正在使用Nutch抓取一个大型网站 网页由CGI程序生成。大多数网页的URL包含诸如Web crawler Nutch如何避免CGI生成的爬网日历网页,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch抓取一个大型网站 网页由CGI程序生成。大多数网页的URL包含诸如?id=2323&title=foo之类的表达式 我想抓取这些网页,因为它们包含许多有用的信息 然而,我面临的一个问题是,这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,如year=2030&month=12 这很愚蠢 我怎样才能避免这样的陷阱呢?编写多个正则表达式?将正则表达式模式添加到conf/regex urlfilter.txt中,以指定接受或拒绝URL的规则
?id=2323&title=foo
之类的表达式
我想抓取这些网页,因为它们包含许多有用的信息
然而,我面临的一个问题是,这个网站有一个日历。还生成了一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,如year=2030&month=12
这很愚蠢
我怎样才能避免这样的陷阱呢?编写多个正则表达式?将正则表达式模式添加到
conf/regex urlfilter.txt
中,以指定接受或拒绝URL的规则