Web scraping robots txt文件中的大括号_Web Scraping_Robots.txt

Web scraping robots txt文件中的大括号

web-scraping

Web scraping robots txt文件中的大括号,web-scraping,robots.txt,Web Scraping,Robots.txt,我一直在从事网页抓取工作，在一个robots.txt文件中遇到了以下模式 Disallow: /*{{url}}* Disallow: /*{{imageURL}}* 它们是否意味着不允许我删除任何URL？这看起来像是网站作者犯了一个错误，因为{{URL}和{{imageURL}}可能是应该用实际值替换的变量根据原始robots.txt规范解释此记录时，所有字符都必须按字面解释，因此不允许使用以下URL： https://example.com/*{{url}}* https://exam

我一直在从事网页抓取工作，在一个robots.txt文件中遇到了以下模式

Disallow: /*{{url}}*
Disallow: /*{{imageURL}}*

它们是否意味着不允许我删除任何URL？

这看起来像是网站作者犯了一个错误，因为

{{URL}

和

{{imageURL}}

可能是应该用实际值替换的变量

根据原始robots.txt规范解释此记录时，所有字符都必须按字面解释，因此不允许使用以下URL：

```
https://example.com/*{{url}}*
```
```
https://example.com/*{{url}}*.bar
```
```
https://example.com/*{{url}}*/
```
```
https://example.com/*{{url}}*/foo
```

由于

和

不允许出现在URL路径（）中，这意味着允许对所有URL进行爬网。但是，如果您愿意，可以假设它适用于

的百分比编码形式，但这不是规范所要求的

当根据robots.txt规范的流行扩展（例如，）解释此记录时，

有一个特殊的含义：

Disallow

值中的每个

都可以不替换任何内容或任何字符序列。这将导致更多不允许的url，但它们仍然必须包含字面上的

{{url}

和

{{imageURL}}

你是对的！！看完你的答案后，我甚至用谷歌的“机器人”nuget进行了测试。