Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/329.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 空坚果爬网列表_Java_Eclipse_Nutch - Fatal编程技术网

Java 空坚果爬网列表

Java 空坚果爬网列表,java,eclipse,nutch,Java,Eclipse,Nutch,我正在尝试在Eclipse中使用Nutch运行爬网 我正在使用一个名为URL的文件,它包含 但是,当我运行项目时,Generator类告诉我: 已选择0条记录进行提取,正在退出 我如何解决这个问题 我关注了以下文档: 非常感谢您的帮助。很可能是您的regex-urlfilter.xml。试着用这个,看看它是否能解决问题 -^(文件| ftp | mailto): -(gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3

我正在尝试在Eclipse中使用Nutch运行爬网

我正在使用一个名为URL的文件,它包含

但是,当我运行项目时,Generator类告诉我:

已选择0条记录进行提取,正在退出

我如何解决这个问题

我关注了以下文档:


非常感谢您的帮助。

很可能是您的regex-urlfilter.xml。试着用这个,看看它是否能解决问题

-^(文件| ftp | mailto):

-(gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3 | doc | css | rss | sit eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | mov | jpeg | bmp | bmp |$

-.*(/[^/]+)/[^/]+\1/[^/]+\1/


+.

我最近遇到了这个问题,发现大多数回复都与(regex | crawl)-urlfiters.txt有关。另一个要检查的是您的“-topN”设置。这需要足够大,以便发电机通过所有过滤器

我希望这有帮助