Python 显示在后爬虫统计中过滤的重复请求数_Python_Scrapy

Python 显示在后爬虫统计中过滤的重复请求数

python scrapy

Python 显示在后爬虫统计中过滤的重复请求数,python,scrapy,Python,Scrapy,我正在运行的Scrapy Spider版本0.21中有一个并没有拉取我要刮的所有物品统计数据显示有283件物品被移除，但我预计这里的物品数量将远远超过300件。我怀疑网站上的一些链接是重复的，因为日志显示了第一个重复的请求，但我想知道到底过滤了多少重复的链接，这样我就有了更确凿的证据。最好是在爬网结束时以附加状态的形式我知道Scrapy的最新版本已经做到了这一点，但目前我仍然坚持使用0.21，我看不到任何方法可以用我现有的功能复制这一功能。当过滤重复的url时，似乎没有发出信号，并且DUPE

我正在运行的Scrapy Spider版本0.21中有一个并没有拉取我要刮的所有物品

统计数据显示有283件物品被移除，但我预计这里的物品数量将远远超过300件。我怀疑网站上的一些链接是重复的，因为日志显示了第一个重复的请求，但我想知道到底过滤了多少重复的链接，这样我就有了更确凿的证据。最好是在爬网结束时以附加状态的形式

我知道Scrapy的最新版本已经做到了这一点，但目前我仍然坚持使用0.21，我看不到任何方法可以用我现有的功能复制这一功能。当过滤重复的url时，似乎没有发出信号，并且DUPEFILTER_调试似乎也不起作用

关于如何获取所需内容，您有什么想法吗？

您可以维护一个已爬网的url列表，每当您遇到已在列表中的url时，您可以记录该url并增加计数器