Web crawler 创建robots.txt指令_Web Crawler_Sitemap_Robots.txt_Google Crawlers

Web crawler 创建robots.txt指令

web-crawler

Web crawler 创建robots.txt指令,web-crawler,sitemap,robots.txt,google-crawlers,Web Crawler,Sitemap,Robots.txt,Google Crawlers,我有一个链接列表，我想得到爬网。我想删除爬虫程序的所有其他链接他发现自己没有被抓到我研究的方向：创建一个robots.txt，它将禁止所有页面，除了我的站点地图中存在的页面。我看到了关于如何创建这样一个文件的信息，该文件声明我可以通过以下方式禁止网站的部分内容： Allow:/folder1/myfile.html 不允许：/folder1/ 但我确实希望爬网的链接不在特定文件夹中。我可以为他制作一个hugh文件，实际上是一个站点地图，但这似乎不合理。你推荐什么如果你有时间或精力，用文件夹

我有一个链接列表，我想得到爬网。我想删除爬虫程序的所有其他链接
他发现自己没有被抓到

我研究的方向：创建一个robots.txt，它将禁止所有页面，除了我的站点地图中存在的页面。我看到了关于如何创建这样一个文件的信息，该文件声明我可以通过以下方式禁止网站的部分内容：

Allow:/folder1/myfile.html

不允许：/folder1/

但我确实希望爬网的链接不在特定文件夹中。我可以为他制作一个hugh文件，实际上是一个站点地图，但这似乎不合理。你推荐什么

如果你有时间或精力，用文件夹组织你的网站从长远来看是非常有帮助的

就robots.txt而言，您可以列出不允许的文件或文件夹，这没有问题，但是如果您有很多文件或文件夹，这可能会很耗时。顺便说一句，Robots.txt只有不允许的字段，所以除非另有发现，否则一切都是允许的

请参阅：在底部，它讨论了站点地图的使用，而不是明确的禁止列表。

的URL规范功能有限。我不知道公布的robots.txt文件的最大大小，但通常预计不会很大。这只是给爬虫们的一个建议，不是绝对的

<>你可以考虑在Rooth.txt中引用站点地图。报告提到了这一能力。这将向支持站点地图的爬虫提示您要索引的特定URL。我想他们仍然会关注那些页面上的链接，所以你仍然需要明确禁止任何你不想被爬网的内部链接

不过，这只是一个请求或建议。爬虫程序没有义务遵循robots.txt。

如果您想要禁止的文件分散在您的站点中，并且没有遵循特定的命名模式，该命名模式可以用谷歌、微软和其他一些爬虫程序支持的简单通配符来表示，然后，您唯一的其他选项是在robots.txt中的一个单独的

Disallow

指令中具体列出每个文件。正如你所说，这是一项艰巨的工作

如果阻止爬虫访问这些页面很重要，那么您可以单独列出每个页面，或者重新排列您的站点，以便更容易地阻止您不希望爬虫的文件。

如果我在robots.txt中使用站点地图，所有其他链接都会被视为不允许吗？是，但棘手的是，并非所有的爬虫首先都能识别网站地图。“这只是给爬虫的一个建议，而不是绝对的。”这并不完全正确。爬虫程序至少应该遵守robots.txt中的

Disallow

行，语法在robots排除协议中列出。一个没有表现不好的爬虫程序应该被完全阻止。