Scrapy使用scrapyredis分发_Scrapy

Scrapy使用scrapyredis分发

scrapy

Scrapy使用scrapyredis分发,scrapy,Scrapy,当我使用scrapy编写带有scrapy redis的分布式爬虫程序时，我只将请求队列存储在redis中，没有存储重复数据消除指纹队列 # Spider code import scrapy from datetime import datetime from machinedigikey.items import Detail_Item from scrapy_redis.spiders import RedisSpider class DgkUpdateDetailSpider(Redis

当我使用scrapy编写带有scrapy redis的分布式爬虫程序时，我只将请求队列存储在redis中，没有存储重复数据消除指纹队列

# Spider code

import scrapy
from datetime import datetime
from machinedigikey.items import Detail_Item
from scrapy_redis.spiders import RedisSpider
class DgkUpdateDetailSpider(RedisSpider):

# setting
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.PriorityQueue"
SCHEDULER_PERSIST = True
REDIS_URL = "redis://127.0.0.1:6379"
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 300
}
MONGO_URI = 'mongodb://localhost:27017'

没有错误，但我检查了redis only dgk_update_detail:请求中没有重指纹

同时询问代码在运行期间是否中断，但没有清除redis中的数据删除所有爬虫代码，修改并重新部署，整个爬虫是否会继续爬虫

停止爬行方法，如下所示：

Kill -s 9 id

该问题的解决是因为产量很低。请求添加时间Don_filter=参数导致的错误结果该问题的解决是因为产量很低。请求添加时间Don_filter=参数导致的错误结果

Kill -s 9 id