Scrapy 高CPU使用率_Scrapy - Fatal编程技术网

Scrapy 高CPU使用率

scrapy

Scrapy 高CPU使用率,scrapy,Scrapy,我有一个非常简单的测试爬行器，它不进行解析。然而，我在start_requests方法中将大量URL（500k）传递给spider，并看到非常高（99/100%）的cpu使用率。这是预期的行为吗？如果是这样，我该如何优化它（可能是批处理和使用spider_idle？）我认为这里的主要问题是，你刮了太多的链接，尝试添加一个规则，以避免刮不包含你想要的链接 Scrapy提供了非常有用的文档，请查看它们！： class TestSpider(Spider): name = 'test_s

我有一个非常简单的测试爬行器，它不进行解析。然而，我在start_requests方法中将大量URL（500k）传递给spider，并看到非常高（99/100%）的cpu使用率。这是预期的行为吗？如果是这样，我该如何优化它（可能是批处理和使用spider_idle？）

我认为这里的主要问题是，你刮了太多的链接，尝试添加一个规则，以避免刮不包含你想要的链接

Scrapy提供了非常有用的文档，请查看它们！：

class TestSpider(Spider):

    name = 'test_spider'
    allowed_domains = 'mydomain.com'

    def __init__(self, **kw):
        super(Spider, self).__init__(**kw)
        urls_list = kw.get('urls')
        if urls_list:
            self.urls_list = urls_list

    def parse(self, response):
        pass

    def start_requests(self):
        with open(self.urls_list, 'rb') as urls:
            for url in urls:
                yield Request(url, self.parse)