Regex 如何在nutch中设置正则表达式来过滤techcrunch的URL?

Regex 如何在nutch中设置正则表达式来过滤techcrunch的URL?,regex,nutch,Regex,Nutch,我想抓取2013年1月1日之后上传的Techcrunch页面。该网站遵循这种模式 http://www.techcrunch.com/YYYY/MM/DD 因此,我的问题是如何在nutch中设置urlfilter中的正则表达式,以便只抓取我想要的页面 +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)* 我不知道nutch,但你会尝试: +^http://www.techcru

我想抓取2013年1月1日之后上传的Techcrunch页面。该网站遵循这种模式

             http://www.techcrunch.com/YYYY/MM/DD
因此,我的问题是如何在nutch中设置urlfilter中的正则表达式,以便只抓取我想要的页面

             +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*

我不知道nutch,但你会尝试:

+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$


以下表达式将匹配您需要的URL:

没有分组

http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
与组一起

http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
我没有放置锚点(
^$
),但是如果过滤需要,可以放置锚点

试试看是否有任何一种有效

我不知道nutch是如何工作的,但是有几个关于您的正则表达式的建议可能适用:regexp中的
/
应该转义;
dd
部分应为
\d\d
,以便匹配两位数字

关于设置正则表达式,请查看它是否有帮助