Python 显示在后爬虫统计中过滤的重复请求数

Python 显示在后爬虫统计中过滤的重复请求数,python,scrapy,Python,Scrapy,我正在运行的Scrapy Spider版本0.21中有一个并没有拉取我要刮的所有物品 统计数据显示有283件物品被移除,但我预计这里的物品数量将远远超过300件。我怀疑网站上的一些链接是重复的,因为日志显示了第一个重复的请求,但我想知道到底过滤了多少重复的链接,这样我就有了更确凿的证据。最好是在爬网结束时以附加状态的形式 我知道Scrapy的最新版本已经做到了这一点,但目前我仍然坚持使用0.21,我看不到任何方法可以用我现有的功能复制这一功能。当过滤重复的url时,似乎没有发出信号,并且DUPE

我正在运行的Scrapy Spider版本0.21中有一个并没有拉取我要刮的所有物品

统计数据显示有283件物品被移除,但我预计这里的物品数量将远远超过300件。我怀疑网站上的一些链接是重复的,因为日志显示了第一个重复的请求,但我想知道到底过滤了多少重复的链接,这样我就有了更确凿的证据。最好是在爬网结束时以附加状态的形式

我知道Scrapy的最新版本已经做到了这一点,但目前我仍然坚持使用0.21,我看不到任何方法可以用我现有的功能复制这一功能。当过滤重复的url时,似乎没有发出信号,并且DUPEFILTER_调试似乎也不起作用


关于如何获取所需内容,您有什么想法吗?

您可以维护一个已爬网的url列表,每当您遇到已在列表中的url时,您可以记录该url并增加计数器