Seo 可以防止搜索引擎爬行器在搜索结果上无限爬行分页链接吗?

Seo 可以防止搜索引擎爬行器在搜索结果上无限爬行分页链接吗?,seo,web-crawler,robots.txt,nofollow,Seo,Web Crawler,Robots.txt,Nofollow,我们的搜索引擎优化团队希望打开我们的主要动态搜索结果页面,蜘蛛和删除'nofollow'从元标签。目前,爬行器可以通过允许robots.txt中的路径来访问它,但在meta标记中有一个“nofollow”子句,防止爬行器超出第一页 我担心,如果我们删除“nofollow”,对搜索系统的影响将是灾难性的,因为爬行器将开始在结果集中的所有页面中爬行。我希望得到以下方面的建议: 1) 有没有办法从meta标记中删除“nofollow”,但防止爬行器只跟踪页面上的某些链接?我读过关于rel=“nofo

我们的搜索引擎优化团队希望打开我们的主要动态搜索结果页面,蜘蛛和删除'nofollow'从元标签。目前,爬行器可以通过允许robots.txt中的路径来访问它,但在meta标记中有一个“nofollow”子句,防止爬行器超出第一页

我担心,如果我们删除“nofollow”,对搜索系统的影响将是灾难性的,因为爬行器将开始在结果集中的所有页面中爬行。我希望得到以下方面的建议:

1) 有没有办法从meta标记中删除“nofollow”,但防止爬行器只跟踪页面上的某些链接?我读过关于rel=“nofollow”的不同意见,这是一个可行的选择吗

2) 有没有办法控制蜘蛛能走多远的“深度”?如果他们读了几页,然后停下来,那就不会那么糟糕了

3) 我们的搜索结果页面具有标准的下一个/上一个链接,这在理论上会导致爬行器递归地无限次地访问页面,这对SEO有什么影响

我知道不同的蜘蛛的行为是不同的,但我主要关注的是大玩家,比如谷歌、雅虎、MSN


请注意,我们的搜索结果页面和分页链接不是机器人友好型的,因为它们不会被重新写入,并且具有?name=value查询字符串,但是从我所看到的情况来看,当蜘蛛看到“?”时,它们不再只是中止,因为结果页面正在以体面的页面排名进行索引。

谷歌机器人非常聪明,不会遍历动态生成页面的整个数据库,只要URL提供一些动态的提示(即.asp或.jsp等文件扩展名和数字ID作为查询参数)。如果使用重写规则使URL“友好”,则机器人程序很难确定它们正在读取的是静态页面还是动态生成的页面。有关动态URL与静态URL的更多信息,请参阅


你也可以考虑创建一个让你的网站更好地了解你的站点上哪些页面可以被索引和不能被收录的版本。

< P>我已经看到谷歌索引是一个日历系统,它在每个页面上都有相对的链接,通过时间的结束(2038年1月19日-参见:)。。我们没有注意到服务器上的负载,直到它暴露了处理2038年日期的源代码中的一个错误

我不知道其他搜索引擎的情况,但谷歌提供了许多有用的工具来控制googlebot对您的服务器基础设施的影响。请参阅


站长工具中有一个选项可以设置站点的爬网速度。

老实说,你看到的nofollow是错误的。很可能搜索蜘蛛已经在搜索nofollow页面了,特别是谷歌、雅虎和MSN,因为他们仍然需要点击这些页面来查看是否有noindex

真正的问题是nofollow实际上并不意味着不跟随,它只是意味着不要将我的声誉传递给这个链接。因此,除非你积极阻止机器人(听起来不像),否则更改链接上的机器人元标记和机器人命令不会影响性能,因为它们已经击中了你的链接要确认这一点,只需查看HTTP服务器日志

因此,我的投票结果是,取消机器人限制不会有任何问题