Web crawler Nutch无法对特定站点进行爬网

Web crawler Nutch无法对特定站点进行爬网,web-crawler,nutch,Web Crawler,Nutch,我正在使用Nutch1.4来抓取网站。出于演示目的,我开始在jabong.com上爬行,但我发现nutch无法获取站点中的所有链接 参观后 它不会获取此站点中映射在图像上的链接 我已将nutch配置为:- conf/nuth-default.xml-->添加了代理名称 conf/regex-urlfilter.txt-->,而不是+,我写了+^http://([a-z0-9]*)*jabong.com/ seed.txt包含 有人能告诉我,如果没有获取所有链接,可能会出现什么问题吗?最后,在打破

我正在使用Nutch1.4来抓取网站。出于演示目的,我开始在jabong.com上爬行,但我发现nutch无法获取站点中的所有链接

参观后 它不会获取此站点中映射在图像上的链接

我已将nutch配置为:- conf/nuth-default.xml-->添加了代理名称 conf/regex-urlfilter.txt-->,而不是+,我写了+^http://([a-z0-9]*)*jabong.com/ seed.txt包含


有人能告诉我,如果没有获取所有链接,可能会出现什么问题吗?

最后,在打破我的头脑很久之后,我终于能够解决这个问题了。所以在这里分享:) 您必须调整conf目录中
nutch default.xml
中定义的参数

因此,请检查
max.content.length
,为此定义的值约为60K,但实际上页面内容更多,因此无法对整个页面进行爬网,这就是链接无法在爬网页面中显示的原因

所以在抓取任何站点之前,请检查以下参数:) 喜欢爬行:)

注:很抱歉,有人觉得我在这里发布问题,然后发布解决方案。在发帖之前,我确实试了很多