Python Scrapy-如何同时从两个不同的网站进行刮取？_Python_Scrapy

Python Scrapy-如何同时从两个不同的网站进行刮取？

python scrapy

Python Scrapy-如何同时从两个不同的网站进行刮取？,python,scrapy,Python,Scrapy,我需要从Excel中给出的域列表中刮取数据；问题是，我需要从原始网站（例如：）和Similatech（）中获取数据我希望他们在同一时间刮，这样我就可以收到他们和格式，他们在最后一次，然后我会去下一个域理论上，我应该在scrapy？中以异步方式使用两个爬行器。理想情况下，您希望将不同结构站点的爬行器分开，这样从长远来看，您的代码将更易于维护从理论上讲，如果出于某种原因必须在同一个spider中解析它们，则可以只收集要刮取的URL，并根据基本路径调用不同的解析器回调方法。话虽如此，我个人想不

我需要从Excel中给出的域列表中刮取数据；问题是，我需要从原始网站（例如：）和Similatech（）中获取数据

我希望他们在同一时间刮，这样我就可以收到他们和格式，他们在最后一次，然后我会去下一个域

理论上，我应该在scrapy？

中以异步方式使用两个爬行器。理想情况下，您希望将不同结构站点的爬行器分开，这样从长远来看，您的代码将更易于维护

从理论上讲，如果出于某种原因必须在同一个spider中解析它们，则可以只收集要刮取的URL，并根据基本路径调用不同的解析器回调方法。话虽如此，我个人想不出你必须这么做的理由。即使您具有相同的结构，也可以重用

scrapy.Item

类。

scrapy框架将Twisted networking库用于其内部网络任务，scrapy提供了在设置中处理并发请求的功能

解释如下：

或者你可以使用多个相互独立的蜘蛛，这已经在scrapy文档中解释过了，这可能就是你想要的

默认情况下，Scrapy在运行时为每个进程运行一个spider 搔痒的爬行。但是，Scrapy支持每小时运行多个spider 使用内部API处理

根据效率，您可以选择选项A或B，这实际上取决于您的资源和需求，而选项A适合于较低的资源，速度也不错，或者选项B适合于较高的速度，资源消耗也比选项A高。

为什么会出现问题？你试过了吗？scrapy中有什么禁止它的吗？我只是不知道从哪里开始有效地执行此操作看看这就是您要寻找的。线程由twisted networking library处理，scrapy将其用于网络任务，用于http请求的twisted reactor只能在主线程上启动，意思是说你们不能使用标准库的线程，你们必须以扭曲的方式使用它。