Web crawler Nutch无法对特定站点进行爬网_Web Crawler_Nutch

Web crawler Nutch无法对特定站点进行爬网

web-crawler

Web crawler Nutch无法对特定站点进行爬网,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch1.4来抓取网站。出于演示目的，我开始在jabong.com上爬行，但我发现nutch无法获取站点中的所有链接参观后它不会获取此站点中映射在图像上的链接我已将nutch配置为：- conf/nuth-default.xml-->添加了代理名称 conf/regex-urlfilter.txt-->，而不是+，我写了+^http://（[a-z0-9]*）*jabong.com/ seed.txt包含有人能告诉我，如果没有获取所有链接，可能会出现什么问题吗？最后，在打破

我正在使用Nutch1.4来抓取网站。出于演示目的，我开始在jabong.com上爬行，但我发现nutch无法获取站点中的所有链接

参观后它不会获取此站点中映射在图像上的链接

我已将nutch配置为：- conf/nuth-default.xml-->添加了代理名称 conf/regex-urlfilter.txt-->，而不是+，我写了+^http://（[a-z0-9]*）*jabong.com/ seed.txt包含

有人能告诉我，如果没有获取所有链接，可能会出现什么问题吗？

最后，在打破我的头脑很久之后，我终于能够解决这个问题了。所以在这里分享：）您必须调整conf目录中

nutch default.xml

中定义的参数

因此，请检查

max.content.length

，为此定义的值约为60K，但实际上页面内容更多，因此无法对整个页面进行爬网，这就是链接无法在爬网页面中显示的原因

所以在抓取任何站点之前，请检查以下参数：）喜欢爬行：）

注：很抱歉，有人觉得我在这里发布问题，然后发布解决方案。在发帖之前，我确实试了很多