Web crawler 如何在网站上查找sitemap.xml路径？_Web Crawler_Sitemap

Web crawler 如何在网站上查找sitemap.xml路径？

web-crawler

Web crawler 如何在网站上查找sitemap.xml路径？,web-crawler,sitemap,Web Crawler,Sitemap,如何查找网站的sitemap.xml文件 e、 g.转到stackoverflow/sitemap.xml会给我一个404 stackoverflow/robots.txt中写入以下内容： “从技术上讲，这是无效的，因为出于某些该死的原因站点地图路径必须是绝对路径，而不是相对路径。站点地图：/Sitemap.xml“ 我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时，您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL，但除此

如何查找网站的sitemap.xml文件

e、 g.转到stackoverflow/sitemap.xml会给我一个404

stackoverflow/robots.txt中写入以下内容：

“从技术上讲，这是无效的，因为出于某些该死的原因站点地图路径必须是绝对路径，而不是相对路径。站点地图：/Sitemap.xml“

我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时，您应该为网站地图指定任意URL的原因。

网站地图的位置会影响它可以包含哪些URL，但除此之外，没有标准。这里有一个很好的链接，有更多的解释：

根据网站设计人员至少可以使用三个选项向搜索引擎通知sitemap.xml的位置：

通过提供的界面通知每个搜索引擎位置
将url添加到robots.txt文件
通过http向搜索引擎提交url

因此，除非他们选择在robots.txt文件上发布站点地图位置，否则您无法真正知道他们将其sitemap.xml文件放在何处。

没有标准，因此无法保证。话虽如此，站点地图通常会在根目录上进行自标记，如下所示：

example.com/sitemap.xml

某些服务器上区分大小写，因此请记住这一点。如果不存在，请查看根目录上的robots文件：

example.com/robots.txt

如果您没有在robots文件中看到它，请前往谷歌搜索：

site:example.com文件类型：xml

这会将结果限制为目标域上的XML文件。在这一点上，它的尝试和错误，并根据您正在使用的网站的具体情况。如果您从上面的Google搜索短语中获得多页结果，请尝试进一步限制结果：

filetype:xml站点：example.com inurl:sitemap

或

filetype:xml站点：example.com inurl:products

如果您仍然找不到它，您可以

右键单击>“查看源代码”

，然后对

.xml

进行搜索（也称为“控制查找”或

Ctrl+F

），查看代码中是否有对它的引用。

使用谷歌搜索操作符为您找到它

用下面的代码搜索谷歌

inurl:domain.com文件类型：xml

将domain.com更改为要查找站点地图的域。

这将列出给定域中列出的所有xml文件。。包括所有站点地图：）

+1用于查找robots.txt文件-这说明了根目录中没有sitemap.xml的站点。现在来看另一个20%…第四个选项：在robots.txt中指定的索引sitemap.xml中列出。我想知道是否有任何解决方案使用google chrome的

右键单击->检查选项。