Python 对几个网站来说都很糟糕

Python 对几个网站来说都很糟糕,python,scrapy,Python,Scrapy,我正在使用scrapy来抓取一些网站。在我的项目中,每一个蜘蛛都有相同的代码,但都有URL、域名和名称。这意味着我的蜘蛛只是一个普通的蜘蛛,我用它来抓取每个网站。 我的目标: 只需使用一个spider,因为每个spider都有相同的代码,并动态设置起始URL、域名和名称(也许我可以从数据库中获取这些信息) 运行spider并使其同时抓取多个网站 记录每个网站的日志,例如:网站:“www.hhh.com”它应该有一个名为“hhh_log”的日志文件 有人能给我一些想法吗?你可以使用subproce

我正在使用scrapy来抓取一些网站。在我的项目中,每一个蜘蛛都有相同的代码,但都有URL、域名和名称。这意味着我的蜘蛛只是一个普通的蜘蛛,我用它来抓取每个网站。 我的目标:

只需使用一个spider,因为每个spider都有相同的代码,并动态设置起始URL、域名和名称(也许我可以从数据库中获取这些信息) 运行spider并使其同时抓取多个网站 记录每个网站的日志,例如:网站:“www.hhh.com”它应该有一个名为“hhh_log”的日志文件
有人能给我一些想法吗?

你可以使用subprocess模块从另一个脚本运行spider,并在参数中给出参数。但是,它太宽了,无法满足你的所有目标。你应该更具体一些。你可以尝试使用。也许像website=X这样的东西,然后你可以在spider中编程一些逻辑,从而完成数据库的运行okup依赖于X。这是一个有趣的问题。就我个人而言,我会创建一个部署脚本,在计划的爬网之前构建我所有的爬行器。这可能不是最好的解决方案,但它足够灵活,而且你通常都必须进行刮片部署。@todinov部署脚本?哈…更具体?如何做?事实上,我对python是个新手d scrapy…@Bearin好吧,你可以加载模板蜘蛛内容,从数据库读取,迭代结果并替换开始URL,等等。然后将每个修改过的蜘蛛写入项目蜘蛛目录中的一个文件。我想有更优雅的解决方案,但这应该行得通。我建议你尝试一下,如果你有任何问题就写ems。