Java Nutch:无法使用Nutch 1.12提取图像URL

Java Nutch:无法使用Nutch 1.12提取图像URL,java,solr,web-crawler,nutch,Java,Solr,Web Crawler,Nutch,我是纳奇的新手。一周前,我在我的windows 10 64位机器上安装了Nutch 1.12。我想从中提取与XPath//a[@class=“product link”]/img/@src匹配的图像URL。我在seed.txt文件中给出了种子URL,并对我的regex urlfilter.txt进行了如下编辑: -\.(gif|GIF|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|g

我是纳奇的新手。一周前,我在我的windows 10 64位机器上安装了Nutch 1.12。我想从中提取与XPath
//a[@class=“product link”]/img/@src
匹配的图像URL。我在
seed.txt
文件中给出了种子URL,并对我的
regex urlfilter.txt
进行了如下编辑:

-\.(gif|GIF|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

# accept anything else
+^http://([a-z0-9]*\.)*www.myntra.com/men-tshirts
+^http://([a-z0-9]*\.)*assets.myntassets.com/
我已删除.jpg扩展名,以避免忽略类似“”的图像URL

我还编辑了
后缀urlfilter.txt
文件,并从禁止扩展名列表中删除了
.jpg
扩展名

但我最终无法提取任何图像URL

以下是我遵循的步骤:

1:bin/nutch注入爬网/crawldb URL

2:bin/nutch生成爬网/爬网DB爬网/段

3:s1=
ls-d爬网/分段/2*|尾部-1

4:bin/nutch售价$s1

5:bin/nutch解析$s1

6:bin/nutch更新的爬网/crawldb$s1

当我尝试到这里并将数据索引到Solr时 我只看到一个文档被索引,在任何地方都没有看到任何与图像URL相关的内容。然后我尝试了下面的下一轮步骤

7:bin/nutch生成爬网/爬网数据库爬网/段-topN 1000

8:s2=
ls-d爬网/分段/2*|尾部-1

9:bin/nutch售价$s2

在第9步之后,在控制台中,我看到没有选择URL


有人能帮助我理解这个问题并指导我如何从给定的种子URL提取图像URL吗???

有人能帮我吗???有人能帮我吗???