Web scraping 想了解Robots.txt吗_Web Scraping_Scrapy_Scrapinghub

Web scraping 想了解Robots.txt吗

web-scraping scrapy

Web scraping 想了解Robots.txt吗,web-scraping,scrapy,scrapinghub,Web Scraping,Scrapy,Scrapinghub,我想刮一个网站。然而，我想在理解robots.txt之前理解它。我不懂的台词是 User-agent: * Disallow: /*/*/*/*/*/*/*/*/ Disallow: /*?&*&* Disallow: /*?*&* Disallow: /*|* 用户代理行是否表示在任何地方都可以访问？但是我有一条不允许的路线，这是我最关心的。这是否意味着不访问8层深度，或根本不访问我相信人们可以简单地用regex解释robot.txt文件。星星通常可以解释为任何事

我想刮一个网站。然而，我想在理解robots.txt之前理解它。我不懂的台词是

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

用户代理行是否表示在任何地方都可以访问？但是我有一条不允许的路线，这是我最关心的。这是否意味着不访问8层深度，或根本不访问

我相信人们可以简单地用

regex

解释

robot.txt

文件。星星通常可以解释为任何事物

用户代理行

用户代理：

并不意味着允许您删除所有内容，它只是意味着以下规则适用于所有用户代理。下面是用户代理的示例

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

必须遵守相同的规则，即：

例如

Disallow://*？*&*

表示不允许您刮取

/some_sub_domain？param_name=param_value

形式的子域

或者行
```
/*/*/*/*/*/*/*/*/
```
表示不允许刮取以下形式的子域
```
/a/b/c/d/e/f/g/i/
```

最后，还有更多关于这个主题的内容。

可能是Great的重复-那么多层不是一个通用的，而是与一种特定的地址形式有关？