Scrapyd vs.cron+;git挂钩

Scrapyd vs.cron+;git挂钩,scrapy,Scrapy,我有一个有30个蜘蛛的项目,都是通过cron作业安排的。每当我想部署一个项目时,我都会将git推到生产环境中,在那里一个钩子会将文件放置到位 现在我来到了accross scrapyd,它似乎以一种更加经济的方式完成了这两项工作,即注册scraper并将其部署到生产环境中。从代码上看,这个项目似乎在大约3年前就停止了。我想知道切换到scrapyd是否有优势,以及这段代码如此陈旧、不再处于开发阶段的原因是什么。相比之下,Scrapy本身会收到regula更新 您是否建议使用scrapyd?如果是,

我有一个有30个蜘蛛的项目,都是通过cron作业安排的。每当我想部署一个项目时,我都会将git推到生产环境中,在那里一个钩子会将文件放置到位

现在我来到了accross scrapyd,它似乎以一种更加经济的方式完成了这两项工作,即注册scraper并将其部署到生产环境中。从代码上看,这个项目似乎在大约3年前就停止了。我想知道切换到scrapyd是否有优势,以及这段代码如此陈旧、不再处于开发阶段的原因是什么。相比之下,Scrapy本身会收到regula更新


您是否建议使用scrapyd?如果是,原因是什么?

我已经使用scrapyd大约两年了,我确实更喜欢使用它,而不是仅仅使用scrapy crawl启动您的作业

  • 您可以使用“每个cpu的最大进程数”设置可以同时运行的刮板数。当达到最大值时启动的任何刮板都将被放入队列中,并在有可用位置时启动
  • 您有一个简约的GUI,可以在其中检查队列和读取日志
  • 通过api调用可以轻松地安排爬行器。列出爬行器、取消爬行器、
  • 即使同时运行多个spider,也可以使用http缓存
  • 如果您想在不同的服务器上展开爬网,可以一次在多个服务器上部署

我已经使用scrapyd大约两年了,我确实更喜欢使用它,而不是仅仅使用scrapy crawl启动您的作业

  • 您可以使用“每个cpu的最大进程数”设置可以同时运行的刮板数。当达到最大值时启动的任何刮板都将被放入队列中,并在有可用位置时启动
  • 您有一个简约的GUI,可以在其中检查队列和读取日志
  • 通过api调用可以轻松地安排爬行器。列出爬行器、取消爬行器、
  • 即使同时运行多个spider,也可以使用http缓存
  • 如果您想在不同的服务器上展开爬网,可以一次在多个服务器上部署

谢谢您的回答。你是怎么安装的?我在ubuntu上试过,但它不在apt软件包中。文档也丢失了:然后我尝试了pip3安装scraypd,它安装在我的用户目录下。我想你应该用
sudo-H-u(scrapyd用户名)pip3安装--user scrpayd
,或者
sudo-H pip3安装scrapyd
来安装它,如果你想为所有用户安装它谢谢,H修好了。谢谢你的回答。你是怎么安装的?我在ubuntu上试过,但它不在apt软件包中。文档也丢失了:然后我尝试了pip3安装scraypd,它安装在我的用户目录下。我想你应该用
sudo-H-u(scrapyd用户名)pip3安装--user-scrpayd
,或者
sudo-H pip3安装scrapyd
来安装它,如果你想为所有用户安装它谢谢,-H修复了它。