Web crawler 如何在网站上查找sitemap.xml路径?

Web crawler 如何在网站上查找sitemap.xml路径?,web-crawler,sitemap,Web Crawler,Sitemap,如何查找网站的sitemap.xml文件 e、 g.转到stackoverflow/sitemap.xml会给我一个404 stackoverflow/robots.txt中写入以下内容: “从技术上讲,这是无效的,因为出于某些该死的原因 站点地图路径必须是绝对路径,而不是相对路径。 站点地图:/Sitemap.xml“ 我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL,但除此

如何查找网站的sitemap.xml文件

e、 g.转到stackoverflow/sitemap.xml会给我一个404

stackoverflow/robots.txt中写入以下内容:

“从技术上讲,这是无效的,因为出于某些该死的原因 站点地图路径必须是绝对路径,而不是相对路径。 站点地图:/Sitemap.xml“


我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。

网站地图的位置会影响它可以包含哪些URL,但除此之外,没有标准。这里有一个很好的链接,有更多的解释:

根据网站设计人员至少可以使用三个选项向搜索引擎通知sitemap.xml的位置:

  • 通过提供的界面通知每个搜索引擎位置
  • 将url添加到robots.txt文件
  • 通过http向搜索引擎提交url

因此,除非他们选择在robots.txt文件上发布站点地图位置,否则您无法真正知道他们将其sitemap.xml文件放在何处。

没有标准,因此无法保证。话虽如此,站点地图通常会在根目录上进行自标记,如下所示:

example.com/sitemap.xml

某些服务器上区分大小写,因此请记住这一点。如果不存在,请查看根目录上的robots文件:

example.com/robots.txt

如果您没有在robots文件中看到它,请前往谷歌搜索:

site:example.com文件类型:xml

这会将结果限制为目标域上的XML文件。在这一点上,它的尝试和错误,并根据您正在使用的网站的具体情况。如果您从上面的Google搜索短语中获得多页结果,请尝试进一步限制结果:

filetype:xml站点:example.com inurl:sitemap

filetype:xml站点:example.com inurl:products


如果您仍然找不到它,您可以
右键单击>“查看源代码”
,然后对
.xml
进行搜索(也称为“控制查找”或
Ctrl+F
),查看代码中是否有对它的引用。

使用谷歌搜索操作符为您找到它

用下面的代码搜索谷歌

inurl:domain.com文件类型:xml

将domain.com更改为要查找站点地图的域。
这将列出给定域中列出的所有xml文件。。包括所有站点地图:)

+1用于查找robots.txt文件-这说明了根目录中没有sitemap.xml的站点。现在来看另一个20%…第四个选项:在robots.txt中指定的索引sitemap.xml中列出。我想知道是否有任何解决方案使用google chrome的
右键单击->检查
选项。