Web 关于动态网站的站点地图文件及其内容的问题

Web 关于动态网站的站点地图文件及其内容的问题,web,sitemap,Web,Sitemap,我正在编写一组函数来生成网站地图。让我们假设该网站是一个博客 网站地图的定义是列出网站中可用的页面。对于一个动态的网站来说,这些页面会定期变化 以博客为例,“页面”将是博客文章(我猜),因为站点地图中的链接数量有限(暂时忽略站点地图索引),这意味着我不能继续添加最新博客文章的列表,因为在将来的某个时候,将超过该限制 在上述段落中,我做了两个(相当基本的)假设。它们是: 假设1: 站点地图包含网站中的页面列表。对于像博客这样的动态网站,页面将是博客帖子。因此,我可以创建一个网站地图,简单地列出网站

我正在编写一组函数来生成网站地图。让我们假设该网站是一个博客

网站地图的定义是列出网站中可用的页面。对于一个动态的网站来说,这些页面会定期变化

以博客为例,“页面”将是博客文章(我猜),因为站点地图中的链接数量有限(暂时忽略站点地图索引),这意味着我不能继续添加最新博客文章的列表,因为在将来的某个时候,将超过该限制

在上述段落中,我做了两个(相当基本的)假设。它们是:

假设1:

站点地图包含网站中的页面列表。对于像博客这样的动态网站,页面将是博客帖子。因此,我可以创建一个网站地图,简单地列出网站上的博客文章。(这听起来像是一个饲料给我)

假设2:

由于对站点地图文件中的链接数量有一个硬限制,我可以强制施加一些任意限制N,并定期生成文件,以列出最新的N篇博客文章(在这个阶段,这与提要没有区别)

我的问题是:

  • 假设(即我对站点地图文件中内容的理解)是否有效/正确
  • 我上面所描述的,听起来很像一个feed,难道机器人不能简单地使用feed来索引一个web站点(即,是否需要一个站点地图)
  • 如果我已经生成了一个包含最新更改的文件,我看不出添加站点地图协议文件的意义-有人能解释一下吗

假设1是正确的-站点地图实际上应该是站点上页面的列表-在您的情况下,是的,这将是博客帖子,以及您拥有的任何其他页面,如联系人页面、主页、关于页面等

是的,它有点像feed,但是feed通常只包含最新的项目,而站点地图应该包含所有内容

在以下情况下,网站地图特别有用:

  • 您的站点具有动态内容
  • 你的站点有谷歌机器人在爬网过程中不容易发现的页面,例如,具有丰富AJAX或图像的页面
  • 您的站点是新的,几乎没有链接。(谷歌机器人通过从一个页面到另一个页面的链接来抓取网页,因此如果你的网站链接不好,我们可能很难发现。)
  • 您的站点有大量内容页存档,这些内容页之间没有很好的链接,或者根本没有链接
假设2有点不正确-站点地图文件的限制是50000个链接/10MB未压缩,如果您认为可能会达到该限制,那么首先创建一个站点地图索引文件,该文件仅链接到一个站点地图,然后在运行时添加到该文件中

谷歌将接受RSS提要作为站点地图(如果你只有这些),但指出这些通常只包含最新的链接——拥有站点地图的价值在于它应该涵盖站点上的所有内容,而不仅仅是最新的项目,这些项目可能是最容易发现的