Seo 搜索引擎机器人如何抓取论坛?

Seo 搜索引擎机器人如何抓取论坛?,seo,search-engine,Seo,Search Engine,如果我有一个有大量线程的论坛站点,搜索引擎会每次都爬网整个站点吗?假设我的站点中有超过1000000个线程,它们会在每次机器人爬网我的站点时被爬网吗?或者它是如何工作的?我想我的网站被索引,但我不想机器人杀死我的网站!换句话说,我不希望机器人每次爬网我的网站时都一次又一次地爬网旧线程 还有,以前爬过的页面呢?机器人会在每次爬网我的网站时请求它们,以确保它们仍在网站上吗?我这样问是因为我只链接到最新的线程,也就是说,有一个页面包含所有最新线程的列表,但我不链接到旧线程,它们必须通过URL显式请求,

如果我有一个有大量线程的论坛站点,搜索引擎会每次都爬网整个站点吗?假设我的站点中有超过1000000个线程,它们会在每次机器人爬网我的站点时被爬网吗?或者它是如何工作的?我想我的网站被索引,但我不想机器人杀死我的网站!换句话说,我不希望机器人每次爬网我的网站时都一次又一次地爬网旧线程

还有,以前爬过的页面呢?机器人会在每次爬网我的网站时请求它们,以确保它们仍在网站上吗?我这样问是因为我只链接到最新的线程,也就是说,有一个页面包含所有最新线程的列表,但我不链接到旧线程,它们必须通过URL显式请求,例如。http://example.com/showthread.aspx?threadid=7,这能阻止机器人关闭我的网站并消耗我所有的带宽吗

另外,该网站仍在开发中,但我想知道如何设计该网站,使搜索引擎机器人不会破坏它。

复杂的东西

根据我的经验,这更多地取决于您使用什么URL方案将页面链接在一起,从而确定爬虫程序是否将对哪些页面进行爬网

  • 大多数引擎都会对整个网站进行爬网,如果所有网站都正确地与爬网友好的URL进行超链接,例如,使用URL重写而不是topicID=123查询字符串,并且所有页面都可以通过从主页点击几下就可轻松链接

  • 另一种情况是分页,如果有时进行分页,则bot只会抓取第一个页面,并在发现下一个页面链接不断命中同一文档时停止,例如,整个网站的index.php

  • 您不会希望机器人意外地命中某些执行某些操作的网页,例如链接到“Delete.php?topicID=123”的“Delete topic”链接,因此大多数爬虫程序也会检查这些情况

  • 网站还提供了很多关于爬虫工作方式的信息和见解,以及它将提取和咀嚼的信息等。你可以使用这些信息来确定论坛内部的页面是否深入,例如,一篇一年前的文章是否会被爬虫

  • 有些爬虫可以让你自定义它们的爬虫行为。。。差不多。你可以告诉他们抓取和不抓取哪些页面,哪些订单等等。我记得MSN和雅虎也有类似的服务,但我自己从未尝试过

  • 你可以通过在网站根目录中提供一个文件来限制爬行机器人,这样它就不会淹没你的网站


基本上,如果你设计论坛,使URL看起来不会对爬虫有敌意,它会愉快地爬网整个网站。

根据查克里特的说法,一些搜索引擎(特别是谷歌)只会索引只有一个或两个参数的页面。此后,该页面通常被忽略,可能是因为它被视为过于动态,因此是一个不可靠的URL

最好创建没有参数的SEO友好URL,但将实现隐藏在Apache或Rails中。(例如,映射到)


查克里特还提到。这对于确保谷歌扫描每篇帖子并将其永久保存在索引中非常有用。杰夫·阿特伍德(Jeff Atwood)在网站上讨论了这一点,他解释说,谷歌不会保留所有Stackoverflow帖子,直到他们将每个帖子都放在网站地图中。

爬行机器人不会一次抓取整个网站,而是每次访问都会抓取一些页面。每个站点的爬网频率和每次爬网的页面数量差异很大

谷歌索引的每个页面每隔一段时间会被再次爬网一次,以确保没有任何变化

使用站点地图绝对有助于确保搜索引擎索引尽可能多的页面