Sharepoint 2010 使用Dokuwiki页面快速搜索Sharepoint爬虫问题 我的节俭程度在爬网的Dokuwiki网站上达到了极限。

Sharepoint 2010 使用Dokuwiki页面快速搜索Sharepoint爬虫问题 我的节俭程度在爬网的Dokuwiki网站上达到了极限。,sharepoint-2010,dokuwiki,Sharepoint 2010,Dokuwiki,我有一个使用FAST search for SharePoint的内容源,我将其设置为对dokuwiki/doku.php网站进行爬网。我的爬网程序规则设置为:*,匹配大小写,并使用爬网复杂URL包含此路径中的所有项目。。在爬网规则中测试内容源表明,爬网程序将对其进行爬网。然而爬网总是持续不到2分钟,只爬过我指向的页面,而没有该页面上的其他链接,就完成了爬网。我已经和Dokuwki管理员核实过了,他将机器人文本设置为允许。当我查看页面上的源代码时,我看到它说 元名称=机器人内容=索引,跟随 因此

我有一个使用FAST search for SharePoint的内容源,我将其设置为对dokuwiki/doku.php网站进行爬网。我的爬网程序规则设置为:*,匹配大小写,并使用爬网复杂URL包含此路径中的所有项目。。在爬网规则中测试内容源表明,爬网程序将对其进行爬网。然而爬网总是持续不到2分钟,只爬过我指向的页面,而没有该页面上的其他链接,就完成了爬网。我已经和Dokuwki管理员核实过了,他将机器人文本设置为允许。当我查看页面上的源代码时,我看到它说 元名称=机器人内容=索引,跟随

因此,为了测试其他链接页面是否没有问题,我手动将这些链接添加到内容源并重新进行了爬网。。示例源页面有三个链接

地点A 场地B 场地C。 我将站点A、B和C URL添加到爬网源中。此爬网的结果是4次成功,主资源页面和其他链接A、B和C i手动添加

所以我的问题是,为什么爬虫程序不抓取页面上的链接?这是我需要用爬虫来做的事情,还是与如何用Dokuwiki定义名称空间和构造链接有关

任何帮助都将不胜感激


Eric

您是否禁用了延迟索引选项和rel=nofollow选项?

该问题与身份验证有关,即使没有报告表明在快速爬网日志中存在身份验证问题。 修复程序为搜索索引服务器的IP地址添加了$freepass设置,这样Appache就不会对每次点击的页面进行身份验证

谢谢你的回复

埃里克