Java 空坚果爬网列表_Java_Eclipse_Nutch

Java 空坚果爬网列表

java eclipse

Java 空坚果爬网列表,java,eclipse,nutch,Java,Eclipse,Nutch,我正在尝试在Eclipse中使用Nutch运行爬网我正在使用一个名为URL的文件，它包含但是，当我运行项目时，Generator类告诉我：已选择0条记录进行提取，正在退出我如何解决这个问题我关注了以下文档：非常感谢您的帮助。很可能是您的regex-urlfilter.xml。试着用这个，看看它是否能解决问题 -^（文件| ftp | mailto）： -（gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3

我正在尝试在Eclipse中使用Nutch运行爬网

我正在使用一个名为URL的文件，它包含

但是，当我运行项目时，Generator类告诉我：

已选择0条记录进行提取，正在退出

我如何解决这个问题

我关注了以下文档：

非常感谢您的帮助。

很可能是您的regex-urlfilter.xml。试着用这个，看看它是否能解决问题

-^（文件| ftp | mailto）：

-（gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3 | doc | css | rss | sit eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | mov | jpeg | bmp | bmp |$

-.*（/[^/]+）/[^/]+\1/[^/]+\1/

我最近遇到了这个问题，发现大多数回复都与（regex | crawl）-urlfiters.txt有关。另一个要检查的是您的“-topN”设置。这需要足够大，以便发电机通过所有过滤器

我希望这有帮助