Solr ApacheNutch不索引整个网站,只索引子文件夹

Solr ApacheNutch不索引整个网站,只索引子文件夹,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,ApacheNutch1.2不索引整个网站,只索引子文件夹。我的索引页在我的网站的大多数区域/子文件夹中提供链接。例如材料、学生、研究。。。但nutch只在一个特定文件夹中爬行,在本例中为“学生”。似乎没有遵循其他目录中的链接 crawl-urlfilter.txt: +^http://www5.my-domain.de/ URL文件夹中的seed.txt: 从nutch开始(均使用windows/linux): nutch爬网“D:\Program\nutch-1.2\URL”-目录“D:\

ApacheNutch1.2不索引整个网站,只索引子文件夹。我的索引页在我的网站的大多数区域/子文件夹中提供链接。例如材料、学生、研究。。。但nutch只在一个特定文件夹中爬行,在本例中为“学生”。似乎没有遵循其他目录中的链接

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URL文件夹中的seed.txt:

从nutch开始(均使用windows/linux): nutch爬网“D:\Program\nutch-1.2\URL”-目录“D:\Program\nutch-1.2\crawl”-深度10-topN 1000000

测试了深度(5-23)和topN(100-1000000)的不同变体。在seed.txt中提供更多链接根本没有帮助,仍然无法跟踪注入页面中的链接

有趣的是,爬行gnu.org工作得非常完美。我的站点中没有robots.txt或阻止使用meta标记


有什么想法吗?

检查您是否有域内链接限制(nutch site.xml中的属性为false)。还可以查看其他属性,如每页最大内部额外链接数和http大小。有时它们在爬行过程中会产生错误的结果


再见

在尝试从索引页抓取所有链接时,我发现nutch仅限于1000个左右的100个链接。阻碍我前进的背景是:

db.max.outlinks.per.page

将此设置为2000允许nutch一次对所有url进行索引。

您是否对站点url使用参数,因为从我的头顶上看,默认配置会过滤出url,例如:等等…不,只是没有参数的PHP站点。