Regex 如何在nutch中设置正则表达式来过滤techcrunch的URL?
我想抓取2013年1月1日之后上传的Techcrunch页面。该网站遵循这种模式Regex 如何在nutch中设置正则表达式来过滤techcrunch的URL?,regex,nutch,Regex,Nutch,我想抓取2013年1月1日之后上传的Techcrunch页面。该网站遵循这种模式 http://www.techcrunch.com/YYYY/MM/DD 因此,我的问题是如何在nutch中设置urlfilter中的正则表达式,以便只抓取我想要的页面 +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)* 我不知道nutch,但你会尝试: +^http://www.techcru
http://www.techcrunch.com/YYYY/MM/DD
因此,我的问题是如何在nutch中设置urlfilter中的正则表达式,以便只抓取我想要的页面
+^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*
我不知道nutch,但你会尝试:
+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$
或
以下表达式将匹配您需要的URL: 没有分组
http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
与组一起
http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
我没有放置锚点(^$
),但是如果过滤需要,可以放置锚点
试试看是否有任何一种有效
我不知道nutch是如何工作的,但是有几个关于您的正则表达式的建议可能适用:regexp中的/
应该转义;dd
部分应为\d\d
,以便匹配两位数字
关于设置正则表达式,请查看它是否有帮助