Web crawler 如何在网站上查找sitemap.xml路径?
如何查找网站的sitemap.xml文件 e、 g.转到stackoverflow/sitemap.xml会给我一个404 stackoverflow/robots.txt中写入以下内容: “从技术上讲,这是无效的,因为出于某些该死的原因 站点地图路径必须是绝对路径,而不是相对路径。 站点地图:/Sitemap.xml“Web crawler 如何在网站上查找sitemap.xml路径?,web-crawler,sitemap,Web Crawler,Sitemap,如何查找网站的sitemap.xml文件 e、 g.转到stackoverflow/sitemap.xml会给我一个404 stackoverflow/robots.txt中写入以下内容: “从技术上讲,这是无效的,因为出于某些该死的原因 站点地图路径必须是绝对路径,而不是相对路径。 站点地图:/Sitemap.xml“ 我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL,但除此
我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL,但除此之外,没有标准。这里有一个很好的链接,有更多的解释:根据网站设计人员至少可以使用三个选项向搜索引擎通知sitemap.xml的位置:
- 通过提供的界面通知每个搜索引擎位置
- 将url添加到robots.txt文件
- 通过http向搜索引擎提交url
因此,除非他们选择在robots.txt文件上发布站点地图位置,否则您无法真正知道他们将其sitemap.xml文件放在何处。没有标准,因此无法保证。话虽如此,站点地图通常会在根目录上进行自标记,如下所示:
example.com/sitemap.xml
某些服务器上区分大小写,因此请记住这一点。如果不存在,请查看根目录上的robots文件:
example.com/robots.txt
如果您没有在robots文件中看到它,请前往谷歌搜索:
site:example.com文件类型:xml
这会将结果限制为目标域上的XML文件。在这一点上,它的尝试和错误,并根据您正在使用的网站的具体情况。如果您从上面的Google搜索短语中获得多页结果,请尝试进一步限制结果:
filetype:xml站点:example.com inurl:sitemap
或
filetype:xml站点:example.com inurl:products
如果您仍然找不到它,您可以
右键单击>“查看源代码”
,然后对.xml
进行搜索(也称为“控制查找”或Ctrl+F
),查看代码中是否有对它的引用。使用谷歌搜索操作符为您找到它
用下面的代码搜索谷歌
inurl:domain.com文件类型:xml
将domain.com更改为要查找站点地图的域。
这将列出给定域中列出的所有xml文件。。包括所有站点地图:)+1用于查找robots.txt文件-这说明了根目录中没有sitemap.xml的站点。现在来看另一个20%…第四个选项:在robots.txt中指定的索引sitemap.xml中列出。我想知道是否有任何解决方案使用google chrome的
右键单击->检查选项。