Java 空坚果爬网列表
我正在尝试在Eclipse中使用Nutch运行爬网 我正在使用一个名为URL的文件,它包含 但是,当我运行项目时,Generator类告诉我: 已选择0条记录进行提取,正在退出 我如何解决这个问题 我关注了以下文档:Java 空坚果爬网列表,java,eclipse,nutch,Java,Eclipse,Nutch,我正在尝试在Eclipse中使用Nutch运行爬网 我正在使用一个名为URL的文件,它包含 但是,当我运行项目时,Generator类告诉我: 已选择0条记录进行提取,正在退出 我如何解决这个问题 我关注了以下文档: 非常感谢您的帮助。很可能是您的regex-urlfilter.xml。试着用这个,看看它是否能解决问题 -^(文件| ftp | mailto): -(gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3
非常感谢您的帮助。很可能是您的regex-urlfilter.xml。试着用这个,看看它是否能解决问题 -^(文件| ftp | mailto): -(gif | gif | jpg | jpg | png | png | ico | js | ico | doc | mp3 | doc | css | rss | sit eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | mov | jpeg | bmp | bmp |$ -.*(/[^/]+)/[^/]+\1/[^/]+\1/
+.我最近遇到了这个问题,发现大多数回复都与(regex | crawl)-urlfiters.txt有关。另一个要检查的是您的“-topN”设置。这需要足够大,以便发电机通过所有过滤器 我希望这有帮助