Python 对几个网站来说都很糟糕_Python_Scrapy

Python 对几个网站来说都很糟糕

python scrapy

Python 对几个网站来说都很糟糕,python,scrapy,Python,Scrapy,我正在使用scrapy来抓取一些网站。在我的项目中，每一个蜘蛛都有相同的代码，但都有URL、域名和名称。这意味着我的蜘蛛只是一个普通的蜘蛛，我用它来抓取每个网站。我的目标：只需使用一个spider，因为每个spider都有相同的代码，并动态设置起始URL、域名和名称（也许我可以从数据库中获取这些信息）运行spider并使其同时抓取多个网站记录每个网站的日志，例如：网站：“www.hhh.com”它应该有一个名为“hhh_log”的日志文件有人能给我一些想法吗？你可以使用subproce

我正在使用scrapy来抓取一些网站。在我的项目中，每一个蜘蛛都有相同的代码，但都有URL、域名和名称。这意味着我的蜘蛛只是一个普通的蜘蛛，我用它来抓取每个网站。我的目标：

只需使用一个spider，因为每个spider都有相同的代码，并动态设置起始URL、域名和名称（也许我可以从数据库中获取这些信息）运行spider并使其同时抓取多个网站记录每个网站的日志，例如：网站：“www.hhh.com”它应该有一个名为“hhh_log”的日志文件

有人能给我一些想法吗？

你可以使用subprocess模块从另一个脚本运行spider，并在参数中给出参数。但是，它太宽了，无法满足你的所有目标。你应该更具体一些。你可以尝试使用。也许像website=X这样的东西，然后你可以在spider中编程一些逻辑，从而完成数据库的运行okup依赖于X。这是一个有趣的问题。就我个人而言，我会创建一个部署脚本，在计划的爬网之前构建我所有的爬行器。这可能不是最好的解决方案，但它足够灵活，而且你通常都必须进行刮片部署。@todinov部署脚本？哈…更具体？如何做？事实上，我对python是个新手d scrapy…@Bearin好吧，你可以加载模板蜘蛛内容，从数据库读取，迭代结果并替换开始URL，等等。然后将每个修改过的蜘蛛写入项目蜘蛛目录中的一个文件。我想有更优雅的解决方案，但这应该行得通。我建议你尝试一下，如果你有任何问题就写ems。