Scrapy 高CPU使用率
我有一个非常简单的测试爬行器,它不进行解析。然而,我在start_requests方法中将大量URL(500k)传递给spider,并看到非常高(99/100%)的cpu使用率。这是预期的行为吗?如果是这样,我该如何优化它(可能是批处理和使用spider_idle?)Scrapy 高CPU使用率,scrapy,Scrapy,我有一个非常简单的测试爬行器,它不进行解析。然而,我在start_requests方法中将大量URL(500k)传递给spider,并看到非常高(99/100%)的cpu使用率。这是预期的行为吗?如果是这样,我该如何优化它(可能是批处理和使用spider_idle?) 我认为这里的主要问题是,你刮了太多的链接,尝试添加一个规则,以避免刮不包含你想要的链接 Scrapy提供了非常有用的文档,请查看它们!: class TestSpider(Spider): name = 'test_s
我认为这里的主要问题是,你刮了太多的链接,尝试添加一个规则,以避免刮不包含你想要的链接 Scrapy提供了非常有用的文档,请查看它们!:
class TestSpider(Spider):
name = 'test_spider'
allowed_domains = 'mydomain.com'
def __init__(self, **kw):
super(Spider, self).__init__(**kw)
urls_list = kw.get('urls')
if urls_list:
self.urls_list = urls_list
def parse(self, response):
pass
def start_requests(self):
with open(self.urls_list, 'rb') as urls:
for url in urls:
yield Request(url, self.parse)