Java Nutch：无法使用Nutch 1.12提取图像URL_Java_Solr_Web Crawler_Nutch

Java Nutch：无法使用Nutch 1.12提取图像URL

java solr web-crawler

Java Nutch：无法使用Nutch 1.12提取图像URL,java,solr,web-crawler,nutch,Java,Solr,Web Crawler,Nutch,我是纳奇的新手。一周前，我在我的windows 10 64位机器上安装了Nutch 1.12。我想从中提取与XPath//a[@class=“product link”]/img/@src匹配的图像URL。我在seed.txt文件中给出了种子URL，并对我的regex urlfilter.txt进行了如下编辑： -\.(gif|GIF|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|g

我是纳奇的新手。一周前，我在我的windows 10 64位机器上安装了Nutch 1.12。我想从中提取与XPath

//a[@class=“product link”]/img/@src

匹配的图像URL。我在

seed.txt

文件中给出了种子URL，并对我的

regex urlfilter.txt

进行了如下编辑：

-\.(gif|GIF|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

# accept anything else
+^http://([a-z0-9]*\.)*www.myntra.com/men-tshirts
+^http://([a-z0-9]*\.)*assets.myntassets.com/

我已删除.jpg扩展名，以避免忽略类似“”的图像URL

我还编辑了

后缀urlfilter.txt

文件，并从禁止扩展名列表中删除了

.jpg

扩展名

但我最终无法提取任何图像URL

以下是我遵循的步骤：

1:bin/nutch注入爬网/crawldb URL

2：bin/nutch生成爬网/爬网DB爬网/段

3:s1=

ls-d爬网/分段/2*|尾部-1

4:bin/nutch售价$s1

5:bin/nutch解析$s1

6:bin/nutch更新的爬网/crawldb$s1

当我尝试到这里并将数据索引到Solr时我只看到一个文档被索引，在任何地方都没有看到任何与图像URL相关的内容。然后我尝试了下面的下一轮步骤

7:bin/nutch生成爬网/爬网数据库爬网/段-topN 1000

8:s2=

ls-d爬网/分段/2*|尾部-1

9:bin/nutch售价$s2

在第9步之后，在控制台中，我看到没有选择URL

有人能帮助我理解这个问题并指导我如何从给定的种子URL提取图像URL吗？？？

有人能帮我吗？？？有人能帮我吗？？？