Python Scrapy-如何同时从两个不同的网站进行刮取?

Python Scrapy-如何同时从两个不同的网站进行刮取?,python,scrapy,Python,Scrapy,我需要从Excel中给出的域列表中刮取数据; 问题是,我需要从原始网站(例如:)和Similatech()中获取数据 我希望他们在同一时间刮,这样我就可以收到他们和格式,他们在最后一次,然后我会去下一个域 理论上,我应该在scrapy?中以异步方式使用两个爬行器。理想情况下,您希望将不同结构站点的爬行器分开,这样从长远来看,您的代码将更易于维护 从理论上讲,如果出于某种原因必须在同一个spider中解析它们,则可以只收集要刮取的URL,并根据基本路径调用不同的解析器回调方法。话虽如此,我个人想不

我需要从Excel中给出的域列表中刮取数据; 问题是,我需要从原始网站(例如:)和Similatech()中获取数据

我希望他们在同一时间刮,这样我就可以收到他们和格式,他们在最后一次,然后我会去下一个域


理论上,我应该在scrapy?

中以异步方式使用两个爬行器。理想情况下,您希望将不同结构站点的爬行器分开,这样从长远来看,您的代码将更易于维护


从理论上讲,如果出于某种原因必须在同一个spider中解析它们,则可以只收集要刮取的URL,并根据基本路径调用不同的解析器回调方法。话虽如此,我个人想不出你必须这么做的理由。即使您具有相同的结构,也可以重用
scrapy.Item
类。

scrapy框架将Twisted networking库用于其内部网络任务,scrapy提供了在设置中处理并发请求的功能

解释如下:

或者你可以使用多个相互独立的蜘蛛,这已经在scrapy文档中解释过了,这可能就是你想要的

默认情况下,Scrapy在运行时为每个进程运行一个spider 搔痒的爬行。但是,Scrapy支持每小时运行多个spider 使用内部API处理


根据效率,您可以选择选项A或B,这实际上取决于您的资源和需求,而选项A适合于较低的资源,速度也不错,或者选项B适合于较高的速度,资源消耗也比选项A高。

为什么会出现问题?你试过了吗?scrapy中有什么禁止它的吗?我只是不知道从哪里开始有效地执行此操作看看这就是您要寻找的。线程由twisted networking library处理,scrapy将其用于网络任务,用于http请求的twisted reactor只能在主线程上启动,意思是说你们不能使用标准库的线程,你们必须以扭曲的方式使用它。