Web crawler 创建robots.txt指令

Web crawler 创建robots.txt指令,web-crawler,sitemap,robots.txt,google-crawlers,Web Crawler,Sitemap,Robots.txt,Google Crawlers,我有一个链接列表,我想得到爬网。我想删除爬虫程序的所有其他链接 他发现自己没有被抓到 我研究的方向:创建一个robots.txt,它将禁止所有页面,除了我的站点地图中存在的页面。我看到了关于如何创建这样一个文件的信息,该文件声明我可以通过以下方式禁止网站的部分内容: Allow:/folder1/myfile.html 不允许:/folder1/ 但我确实希望爬网的链接不在特定文件夹中。我可以为他制作一个hugh文件,实际上是一个站点地图,但这似乎不合理。你推荐什么 如果你有时间或精力,用文件夹

我有一个链接列表,我想得到爬网。我想删除爬虫程序的所有其他链接
他发现自己没有被抓到

我研究的方向:创建一个robots.txt,它将禁止所有页面,除了我的站点地图中存在的页面。我看到了关于如何创建这样一个文件的信息,该文件声明我可以通过以下方式禁止网站的部分内容:
Allow:/folder1/myfile.html
不允许:/folder1/


但我确实希望爬网的链接不在特定文件夹中。我可以为他制作一个hugh文件,实际上是一个站点地图,但这似乎不合理。你推荐什么

如果你有时间或精力,用文件夹组织你的网站从长远来看是非常有帮助的

就robots.txt而言,您可以列出不允许的文件或文件夹,这没有问题,但是如果您有很多文件或文件夹,这可能会很耗时。顺便说一句,Robots.txt只有不允许的字段,所以除非另有发现,否则一切都是允许的


请参阅:在底部,它讨论了站点地图的使用,而不是明确的禁止列表。

的URL规范功能有限。我不知道公布的robots.txt文件的最大大小,但通常预计不会很大。这只是给爬虫们的一个建议,不是绝对的

<>你可以考虑在Rooth.txt中引用站点地图。报告提到了这一能力。这将向支持站点地图的爬虫提示您要索引的特定URL。我想他们仍然会关注那些页面上的链接,所以你仍然需要明确禁止任何你不想被爬网的内部链接


不过,这只是一个请求或建议。爬虫程序没有义务遵循robots.txt。

如果您想要禁止的文件分散在您的站点中,并且没有遵循特定的命名模式,该命名模式可以用谷歌、微软和其他一些爬虫程序支持的简单通配符来表示,然后,您唯一的其他选项是在robots.txt中的一个单独的
Disallow
指令中具体列出每个文件。正如你所说,这是一项艰巨的工作


如果阻止爬虫访问这些页面很重要,那么您可以单独列出每个页面,或者重新排列您的站点,以便更容易地阻止您不希望爬虫的文件。

如果我在robots.txt中使用站点地图,所有其他链接都会被视为不允许吗?是,但棘手的是,并非所有的爬虫首先都能识别网站地图。“这只是给爬虫的一个建议,而不是绝对的。”这并不完全正确。爬虫程序至少应该遵守robots.txt中的
Disallow
行,语法在robots排除协议中列出。一个没有表现不好的爬虫程序应该被完全阻止。