Python 如何从Spider手动将URL添加到DupeFilter
我目前正在努力寻找一种方法,从我的Python 如何从Spider手动将URL添加到DupeFilter,python,scrapy,scrapy-spider,Python,Scrapy,Scrapy Spider,我目前正在努力寻找一种方法,从我的Spider中访问DupeFilter对象 如果我可以访问它,那么我可以将另一个指纹添加到指纹集。因此,看起来您必须深入挖掘才能找到DupeFilter:self.crawler.engine.slot.scheduler.df 因此,添加指纹将如下所示: def parse_page(self, response): # ... dupe_filter = self.crawler.engine.slot.scheduler.df d
Spider
中访问DupeFilter
对象
如果我可以访问它,那么我可以将另一个指纹添加到指纹集。因此,看起来您必须深入挖掘才能找到
DupeFilter
:self.crawler.engine.slot.scheduler.df
因此,添加指纹将如下所示:
def parse_page(self, response):
# ...
dupe_filter = self.crawler.engine.slot.scheduler.df
dummy_request = Request('http://example.com/thing/9964')
fingerprint = dupe_filter.request_fingerprint(dummy_request)
dupe_filter.fingerprints.add(fingerprint)
# ...