Web scraping robots txt文件中的大括号

Web scraping robots txt文件中的大括号,web-scraping,robots.txt,Web Scraping,Robots.txt,我一直在从事网页抓取工作,在一个robots.txt文件中遇到了以下模式 Disallow: /*{{url}}* Disallow: /*{{imageURL}}* 它们是否意味着不允许我删除任何URL?这看起来像是网站作者犯了一个错误,因为{{URL}和{{imageURL}}可能是应该用实际值替换的变量 根据原始robots.txt规范解释此记录时,所有字符都必须按字面解释,因此不允许使用以下URL: https://example.com/*{{url}}* https://exam

我一直在从事网页抓取工作,在一个robots.txt文件中遇到了以下模式

Disallow: /*{{url}}*
Disallow: /*{{imageURL}}*

它们是否意味着不允许我删除任何URL?

这看起来像是网站作者犯了一个错误,因为
{{URL}
{{imageURL}}
可能是应该用实际值替换的变量

根据原始robots.txt规范解释此记录时,所有字符都必须按字面解释,因此不允许使用以下URL:

  • https://example.com/*{{url}}*
  • https://example.com/*{{url}}*.bar
  • https://example.com/*{{url}}*/
  • https://example.com/*{{url}}*/foo
由于
{
}
不允许出现在URL路径()中,这意味着允许对所有URL进行爬网。但是,如果您愿意,可以假设它适用于
{
/
}
的百分比编码形式,但这不是规范所要求的


当根据robots.txt规范的流行扩展(例如,)解释此记录时,
*
有一个特殊的含义:
Disallow
值中的每个
*
都可以不替换任何内容或任何字符序列。这将导致更多不允许的url,但它们仍然必须包含字面上的
{{url}
{{imageURL}}

你是对的!!看完你的答案后,我甚至用谷歌的“机器人”nuget进行了测试。