Syntax Robots.txt中用户代理分组的正确语法:Is it";“理解”;从2018年起由所有爬虫?

Syntax Robots.txt中用户代理分组的正确语法:Is it";“理解”;从2018年起由所有爬虫?,syntax,web-crawler,user-agent,robots.txt,Syntax,Web Crawler,User Agent,Robots.txt,为了节省robots.txt中200多个用户代理的空间,我对用户代理进行了分组。我这里的问题不是用户代理是否会遵守该指令,而是是否所有用户代理都会理解这个更简短、更优雅的robots.txt编写方式(PS为了方便起见,我将列表从200多个机器人缩短为10个,以使问题更切题) 1) 有无数的爬虫。2) 大多数人没有列出他们支持robots.txt规范的哪些部分,他们只是说“我们支持robots.txt”——所以每一个爬虫都必须经过实验测试。我想说那几乎是不可能的通常,您会根据规范编写robots.

为了节省robots.txt中200多个用户代理的空间,我对用户代理进行了分组。我这里的问题不是用户代理是否会遵守该指令,而是是否所有用户代理都会理解这个更简短、更优雅的robots.txt编写方式(PS为了方便起见,我将列表从200多个机器人缩短为10个,以使问题更切题)


1) 有无数的爬虫。2) 大多数人没有列出他们支持robots.txt规范的哪些部分,他们只是说“我们支持robots.txt”——所以每一个爬虫都必须经过实验测试。我想说那几乎是不可能的通常,您会根据规范编写robots.txt,并期望爬虫程序根据规范解析robots.txt…我的意思是,这是这些规范的一个首要目的,我们不必满足每个单独的实现,对吧?如果节省空间是您的目标,去掉显式允许bingbot、googlebot等爬网的部分。除非你告诉他们不要爬网,否则他们将爬网你。@plasticinest谢谢/对你的建议投了赞成票,你能添加你的建议作为答案吗?哪些部分可以准确删除?1) 我必须添加一个通配符
用户代理:
作为第一个列表的替换项,还是删除所有内容,包括
允许:/
# ALLOW
User-agent: bingbot
User-agent: Googlebot
User-agent: Baiduspider
User-agent: DuckDuckBot
User-agent: Pinterest
Allow: /
Sitemap: https://www.website.org/sitemap.xml

# DISALLOW
User-agent: UbiCrawler
User-agent: Zealbot
User-agent: SiteSnagger
User-agent: WebStripper
User-agent: WebCopier
disallow: /