Python 刮痧机器人在所有情况下都不工作

Python 刮痧机器人在所有情况下都不工作,python,scrapy,robots.txt,Python,Scrapy,Robots.txt,因此,我建立了一个Scrapy项目,并启用了ROBOTSTXT_-OBEY中间件,该中间件在robot.txt文件上运行良好,这些文件的格式如下: 用户代理:* 不允许:/tools/ 但是,如果站点上的同一个爬行器具有以下格式的robots.txt文件,则无法工作: 用户代理:* 不允许:*?下一步 这会导致页面仍然被爬行,而robots.txt应该阻止这些页面,顺便说一句,robots.txt文件的标记是完全有效的 我想知道是否有人能解释为什么会这样?Scrapy使用Python标准的rob

因此,我建立了一个Scrapy项目,并启用了ROBOTSTXT_-OBEY中间件,该中间件在robot.txt文件上运行良好,这些文件的格式如下:

用户代理:* 不允许:/tools/

但是,如果站点上的同一个爬行器具有以下格式的robots.txt文件,则无法工作:

用户代理:* 不允许:*?下一步

这会导致页面仍然被爬行,而robots.txt应该阻止这些页面,顺便说一句,robots.txt文件的标记是完全有效的


我想知道是否有人能解释为什么会这样?

Scrapy使用Python标准的robots.txt解析器,它不支持通配符。

我不熟悉中间件,但您确定它是robots.txt条目格式吗?这可能是中间件在其文档页面上关于多个并发请求的警告吗?看起来这是由于使用了Python标准robots.txt解析器,该解析器不支持通配符:/