如何使用scrapy抓取多个域_Scrapy_Scrapyd_Scrapy Spider

如何使用scrapy抓取多个域

scrapy

如何使用scrapy抓取多个域,scrapy,scrapyd,scrapy-spider,Scrapy,Scrapyd,Scrapy Spider,我有一个项目，其中我必须抓取大量不同的网站。所有这些站点爬行都可以使用同一个爬行器，因为我不需要从它的主体页面中提取项目。我认为的方法是在spider文件中参数化要爬网的域，并调用scrapy crawl命令作为参数传递域和启动URL，这样我就可以避免为每个站点生成一个spider（站点列表将随着时间的推移而增加）。我们的想法是将其部署到运行scrapyd的服务器上，因此我遇到了几个问题：这是我能采取的最好办法吗如果是这样的话，如果我使用不同的参数多次调度同一个爬行器，是否会出现并发问题

我有一个项目，其中我必须抓取大量不同的网站。所有这些站点爬行都可以使用同一个爬行器，因为我不需要从它的主体页面中提取项目。我认为的方法是在spider文件中参数化要爬网的域，并调用scrapy crawl命令作为参数传递域和启动URL，这样我就可以避免为每个站点生成一个spider（站点列表将随着时间的推移而增加）。我们的想法是将其部署到运行scrapyd的服务器上，因此我遇到了几个问题：

这是我能采取的最好办法吗
如果是这样的话，如果我使用不同的参数多次调度同一个爬行器，是否会出现并发问题
如果这不是最好的方法，最好是每个站点创建一个spider。。。我必须经常更新这个项目。项目更新是否会影响正在运行的spider

卡盘设计

将URL列表作为参数发送到单个spider
使用不同的起始url作为参数运行同一个spider的多个实例

将URL列表作为参数发送到单个爬行器：
- 最小CPU占用：为所有URL启动一个进程
- 用户友好：可作为scrapy crawl或scrapyd运行
- 更难调试：没有域限制
为每个启动url运行1个实例
- 占用大量资源：为每个url启动1个专用进程
- 非用户友好型：需要创建外部脚本来启动spider和馈送URL
- 易于调试：编写代码一次运行一个域

并发性

settings.py

项目更新

允许的\u域

from urlparse import urlparse
...
class .....(Spider):
    def __init__(*args, *kwargs):
        ...
        self.start_urls = ....
        ...
        self.allowed_domains = map(lambda x: urlparse(x).netloc, self.start_urls)