Python Scrapy:限制请求或请求字节数
我正在使用一个scrapyPython Scrapy:限制请求或请求字节数,python,scrapy,Python,Scrapy,我正在使用一个scrapy爬行蜘蛛,并定义了一个扭曲的反应器来控制我的爬行器。在测试期间,我对一个新闻网站进行了爬网,收集了超过几GB的数据。我主要对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页面、字节或秒数 是否有一种通用的方法来定义 请求字节数 请求计数或 以秒为单位的运行时间? 在scrapy中有类scrapy.extensions.closespider.closespider。 您可以定义变量CLOSESPIDER\u TIMEOUT,CLOSESPIDER\u ITEMC
爬行蜘蛛
,并定义了一个扭曲的反应器来控制我的爬行器。在测试期间,我对一个新闻网站进行了爬网,收集了超过几GB的数据。我主要对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页面、字节或秒数
是否有一种通用的方法来定义
- 请求字节数
- 请求计数或
- 以秒为单位的运行时间?
scrapy
中有类scrapy.extensions.closespider.closespider
。
您可以定义变量CLOSESPIDER\u TIMEOUT
,CLOSESPIDER\u ITEMCOUNT
,CLOSESPIDER\u PAGECOUNT
和CLOSESPIDER\u ERRORCOUNT
当满足以下条件时,卡盘将自动关闭:
是否有一种方法可以为每个爬行器动态设置CloseSipper_PAGECOUNT?是否可能重复@OfirD?如果该问题比您的建议(2015)更老(2013年),并且有更多的投票权,为什么将其标记为重复问题?另一个问题不是重复的吗?我们应该赞成。在我看来,副本有一个更好的答案(由用户alecxe给出),因为它关注一个相关的设置,并引用了它的文档,而您的文档只是列出了与关闭爬行器相关的所有可能的设置,而没有真正回答您自己的问题。这是我的观点,其他人可能会有不同的看法。