Scrapy 增加不同领域的刮痧的一致性?
我正在尝试配置Scrapy 增加不同领域的刮痧的一致性?,scrapy,Scrapy,我正在尝试配置scrapy以跟踪外部链接 同时,我有DOWNLOAD\u DELAY=3,所以这对服务器是礼貌的 有没有办法将scrapy配置为立即并行下载外部链接 从日志中可以看出,外部链接与内部链接位于同一队列中 我的蜘蛛是: 16 class RedditSpider(scrapy.Spider): 17 name = "reddit" 18 start_urls = ['https://www.reddit.com/'] 19 20 def parse(
scrapy
以跟踪外部链接
同时,我有DOWNLOAD\u DELAY=3
,所以这对服务器是礼貌的
有没有办法将scrapy
配置为立即并行下载外部链接
从日志中可以看出,外部链接与内部链接位于同一队列中
我的蜘蛛是:
16 class RedditSpider(scrapy.Spider):
17 name = "reddit"
18 start_urls = ['https://www.reddit.com/']
19
20 def parse(self, response):
21 digest = hashlib.md5(response.body).hexdigest()
22 if pages.find_one({'digest': digest}):
23 return
24 links = LinkExtractor(allow=()).extract_links(response)
25 urls = [l.url for l in links]
26 pages.insert_one({
27 'digest': digest,
28 'url': response.url,
29 'links': urls,
30 'body': response.text
31 })
32 for url in urls:
33 yield scrapy.Request(url, callback=self.parse)
是的,scrapy通常会并行地刮纸。您可以在scrapy项目的settings.py中修改/替代以下设置:
- 并发请求
- 每个域的并发\u请求\u