Solr ApacheNutch不索引整个网站，只索引子文件夹_Solr_Web Crawler_Nutch

Solr ApacheNutch不索引整个网站，只索引子文件夹

solr web-crawler

Solr ApacheNutch不索引整个网站，只索引子文件夹,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,ApacheNutch1.2不索引整个网站，只索引子文件夹。我的索引页在我的网站的大多数区域/子文件夹中提供链接。例如材料、学生、研究。。。但nutch只在一个特定文件夹中爬行，在本例中为“学生”。似乎没有遵循其他目录中的链接 crawl-urlfilter.txt： +^http://www5.my-domain.de/ URL文件夹中的seed.txt：从nutch开始（均使用windows/linux）： nutch爬网“D:\Program\nutch-1.2\URL”-目录“D:\

ApacheNutch1.2不索引整个网站，只索引子文件夹。我的索引页在我的网站的大多数区域/子文件夹中提供链接。例如材料、学生、研究。。。但nutch只在一个特定文件夹中爬行，在本例中为“学生”。似乎没有遵循其他目录中的链接

crawl-urlfilter.txt： +^http://www5.my-domain.de/

URL文件夹中的seed.txt：

从nutch开始（均使用windows/linux）： nutch爬网“D:\Program\nutch-1.2\URL”-目录“D:\Program\nutch-1.2\crawl”-深度10-topN 1000000

测试了深度（5-23）和topN（100-1000000）的不同变体。在seed.txt中提供更多链接根本没有帮助，仍然无法跟踪注入页面中的链接

有趣的是，爬行gnu.org工作得非常完美。我的站点中没有robots.txt或阻止使用meta标记

有什么想法吗？

检查您是否有域内链接限制（nutch site.xml中的属性为false）。还可以查看其他属性，如每页最大内部额外链接数和http大小。有时它们在爬行过程中会产生错误的结果

再见

在尝试从索引页抓取所有链接时，我发现nutch仅限于1000个左右的100个链接。阻碍我前进的背景是：

db.max.outlinks.per.page

将此设置为2000允许nutch一次对所有url进行索引。

您是否对站点url使用参数，因为从我的头顶上看，默认配置会过滤出url，例如：等等…不，只是没有参数的PHP站点。