Web crawler robots.txt中不区分大小写的目录是否应该使用不同的大小写拼写？_Web Crawler_Robots.txt_Case Sensitive

Web crawler robots.txt中不区分大小写的目录是否应该使用不同的大小写拼写？

web-crawler

Web crawler robots.txt中不区分大小写的目录是否应该使用不同的大小写拼写？,web-crawler,robots.txt,case-sensitive,Web Crawler,Robots.txt,Case Sensitive,不幸的是，我的服务器不区分大小写，短期内无法更换。有些目录需要从爬网中排除，因此我必须在我的robots.txt中禁止它们。让我们以/Img/为例。如果我把它全部放在小写 User-agent: * Disallow: /img/ …它不映射到实际的物理路径，带有/Img/或/Img/的地址不应用于Disallow指令。爬虫会将这些变化视为不同的路径这件事很有趣。他们可能使用IIS服务器，SERP中充满了不允许的地址——只有在其他情况下我能做什么？以下陈述有效吗 User-agent: *

不幸的是，我的服务器不区分大小写，短期内无法更换。有些目录需要从爬网中排除，因此我必须在我的

robots.txt

中禁止它们。让我们以

/Img/

为例。如果我把它全部放在小写

User-agent: *
Disallow: /img/

…它不映射到实际的物理路径，带有

/Img/

或

/Img/

的地址不应用于

Disallow

指令。爬虫会将这些变化视为不同的路径

这件事很有趣。他们可能使用IIS服务器，SERP中充满了不允许的地址——只有在其他情况下

我能做什么？
以下陈述有效吗

User-agent: *
Disallow: /Img/
Disallow: /img/
Disallow: /IMG/

最初的robots.txt规范没有在文件路径中说明任何关于typecase的内容，但是根据，文件路径肯定是区分大小写的。谷歌明确表示，“不允许：/img/”只阻止“/img/”，而不是“/img/”或“/img/”。你的解决方案肯定是有效的，而且会解决问题

这就是说，只有当我有理由相信备用案例URL实际上正在被爬网，并且它们导致了问题时，我才会求助于此解决方案。否则，您可以很容易地将robots.txt文件变成无法维护的乱七八糟。

作为URL路径的开始值，您的假设是正确的

因此，是的，如果要阻止路径以不区分大小写的

/img

/开头的所有URL，则需要添加：

Disallow: /img/
Disallow: /IMG/
Disallow: /Img/
Disallow: /IMg/
Disallow: /ImG/
Disallow: /iMg/
Disallow: /iMG/
Disallow: /imG/