Web crawler robots.txt中不区分大小写的目录是否应该使用不同的大小写拼写?

Web crawler robots.txt中不区分大小写的目录是否应该使用不同的大小写拼写?,web-crawler,robots.txt,case-sensitive,Web Crawler,Robots.txt,Case Sensitive,不幸的是,我的服务器不区分大小写,短期内无法更换。有些目录需要从爬网中排除,因此我必须在我的robots.txt中禁止它们。让我们以/Img/为例。如果我把它全部放在小写 User-agent: * Disallow: /img/ …它不映射到实际的物理路径,带有/Img/或/Img/的地址不应用于Disallow指令。爬虫会将这些变化视为不同的路径 这件事很有趣。他们可能使用IIS服务器,SERP中充满了不允许的地址——只有在其他情况下 我能做什么?以下陈述有效吗 User-agent: *

不幸的是,我的服务器不区分大小写,短期内无法更换。有些目录需要从爬网中排除,因此我必须在我的
robots.txt
中禁止它们。让我们以
/Img/
为例。如果我把它全部放在小写

User-agent: *
Disallow: /img/
…它不映射到实际的物理路径,带有
/Img/
/Img/
的地址不应用于
Disallow
指令。爬虫会将这些变化视为不同的路径

这件事很有趣。他们可能使用IIS服务器,SERP中充满了不允许的地址——只有在其他情况下

我能做什么?
以下陈述有效吗

User-agent: *
Disallow: /Img/
Disallow: /img/
Disallow: /IMG/

最初的robots.txt规范没有在文件路径中说明任何关于typecase的内容,但是根据,文件路径肯定是区分大小写的。谷歌明确表示,“不允许:/img/”只阻止“/img/”,而不是“/img/”或“/img/”。你的解决方案肯定是有效的,而且会解决问题

这就是说,只有当我有理由相信备用案例URL实际上正在被爬网,并且它们导致了问题时,我才会求助于此解决方案。否则,您可以很容易地将robots.txt文件变成无法维护的乱七八糟。

作为URL路径的开始值,您的假设是正确的

因此,是的,如果要阻止路径以不区分大小写的
/img
/开头的所有URL,则需要添加:

Disallow: /img/
Disallow: /IMG/
Disallow: /Img/
Disallow: /IMg/
Disallow: /ImG/
Disallow: /iMg/
Disallow: /iMG/
Disallow: /imG/