Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/293.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将计划详细信息复制到数据库中_Python_Scrapy_Scrapyd - Fatal编程技术网

Python 将计划详细信息复制到数据库中

Python 将计划详细信息复制到数据库中,python,scrapy,scrapyd,Python,Scrapy,Scrapyd,嗨,我正在使用Scrpayd来安排我的蜘蛛。问题是,我希望跟踪到目前为止计划的作业的所有历史信息。但是如果scrapyd服务器重新启动,所有信息都将被删除 我的问题是,有没有其他方法将这些值存储到像sql server这样的持久存储中 还是有其他方法可以做到这一点 有人能帮我吗 谢谢,我相信spider中间件非常适合做这项工作。 一旦爬行器完成工作,您就可以将统计信息和其他所需信息保存在数据库中 这是一份草稿: from scrapy import signals import os clas

嗨,我正在使用Scrpayd来安排我的蜘蛛。问题是,我希望跟踪到目前为止计划的作业的所有历史信息。但是如果scrapyd服务器重新启动,所有信息都将被删除

我的问题是,有没有其他方法将这些值存储到像sql server这样的持久存储中

还是有其他方法可以做到这一点

有人能帮我吗


谢谢,

我相信spider中间件非常适合做这项工作。 一旦爬行器完成工作,您就可以将统计信息和其他所需信息保存在数据库中

这是一份草稿:

from scrapy import signals
import os

class UpdateStatsMiddleware(object):
    def __init__(self, crawler):
        self.crawler = crawler
        # register close_spider method as callback for the spider_closed signal
        crawler.signals.connect(self.close_spider, signals.spider_closed)

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def get_jobid(self):
        """Gets jobid through scrapyd's SCRAPY_JOB env variable"""
        return os.environ['SCRAPY_JOB']

    def close_spider(self, spider, reason):
        # do your magic here...
        spider.log('Finishing spider with reason: %s' % reason)
        stats = self.crawler.stats.get_stats()
        jobid = self.get_jobid()
        self.update_job_stats(jobid, stats)

    def update_job_stats(self, jobid, stats):
        # do your magic here...
        pass

我知道scrapyd支持sqlite,或者您可以使用这个包@CristianOlaru,我可以将这些项目存储到SQL server中。但我的问题是我想存储日程信息和其他细节。请检查我的问题:)@CristianOlaru即使在重新启动我的scrapyd服务器之后,我也希望跟踪日程信息和日志。哦,现在我明白了,所以这里有一个想法:编写一个脚本来解析日志文件,并将这些信息存储到数据库中。为该脚本创建一个cron作业,同样在scrapyd.init()中,在重新启动或停止之前运行该脚本。您可以使用“close_spider”管道在spider完成其工作后进行回调,它将返回一个spider对象及其所有数据,如开始、结束时间和所有计数器。裁判: