Python 刮痧机器人在所有情况下都不工作_Python_Scrapy_Robots.txt

Python 刮痧机器人在所有情况下都不工作

python scrapy

Python 刮痧机器人在所有情况下都不工作,python,scrapy,robots.txt,Python,Scrapy,Robots.txt,因此，我建立了一个Scrapy项目，并启用了ROBOTSTXT_-OBEY中间件，该中间件在robot.txt文件上运行良好，这些文件的格式如下：用户代理：* 不允许：/tools/ 但是，如果站点上的同一个爬行器具有以下格式的robots.txt文件，则无法工作：用户代理：* 不允许：*？下一步这会导致页面仍然被爬行，而robots.txt应该阻止这些页面，顺便说一句，robots.txt文件的标记是完全有效的我想知道是否有人能解释为什么会这样？Scrapy使用Python标准的rob

因此，我建立了一个Scrapy项目，并启用了ROBOTSTXT_-OBEY中间件，该中间件在robot.txt文件上运行良好，这些文件的格式如下：

用户代理：* 不允许：/tools/

但是，如果站点上的同一个爬行器具有以下格式的robots.txt文件，则无法工作：

用户代理：* 不允许：*？下一步

这会导致页面仍然被爬行，而robots.txt应该阻止这些页面，顺便说一句，robots.txt文件的标记是完全有效的

我想知道是否有人能解释为什么会这样？

Scrapy使用Python标准的robots.txt解析器，它不支持通配符。

我不熟悉中间件，但您确定它是robots.txt条目格式吗？这可能是中间件在其文档页面上关于多个并发请求的警告吗？看起来这是由于使用了Python标准robots.txt解析器，该解析器不支持通配符：/