Javascript Flickr的Nutch正则表达式
我在和纳奇打交道,我想爬Flickr。我想从现在开始Javascript Flickr的Nutch正则表达式,javascript,html,regex,Javascript,Html,Regex,我在和纳奇打交道,我想爬Flickr。我想从现在开始 www.flickr.com/photos/tags 然后选择一些标签,这样我就可以选择一些URL,格式为www.flickr.com/photos/tags/tag_name。或者,我可以从我选择的一些标记开始,这样我的种子列表将是 www.flickr.com/photos/tags/beach www.flickr.com/photos/tags/california www.flickr.com/photo
www.flickr.com/photos/tags
然后选择一些标签,这样我就可以选择一些URL,格式为www.flickr.com/photos/tags/tag_name。或者,我可以从我选择的一些标记开始,这样我的种子列表将是
www.flickr.com/photos/tags/beach
www.flickr.com/photos/tags/california
www.flickr.com/photos/tags/japan
...
现在,这些页面包含大量图像,我的爬虫程序必须选择这些URL。不幸的是,这些URL的格式是
www.flickr.com/photos/user_name/photo_id
总而言之,我想将爬网限制为:
www.flickr.com/photos/tags or if I start from particular tag www.flickr.com/photos/tags/tag_name
及
我该怎么处理
谢谢您使用以下内容验证url:www.flickr.com/photos/?:tags |[^/]*/photo\u id/?
–sln对不起,伙计们。我从帖子中删除了Hi everyone:使用以下内容验证url www\.flickr\.com/photos/?:tags |[^/]*/photo_id/?谢谢,这对我很有帮助
www.flickr.com/photos/user_name/photo_id