Scrapy 运行多个进程的刮擦蜘蛛_Scrapy_Scrapy Spider - Fatal编程技术网

Scrapy 运行多个进程的刮擦蜘蛛

scrapy

Scrapy 运行多个进程的刮擦蜘蛛,scrapy,scrapy-spider,Scrapy,Scrapy Spider,我有一个Scrapy项目，它从数据库中读取100万个产品ID，然后开始根据网站上的ID删除产品详细信息我的蜘蛛正在全力工作我想运行10个Spider实例，每个实例都分配了相同数量的产品ID 我可以这样做从产品标识中选择COUNT（*），然后将其除以10，然后执行从产品ID限制0、N中选择*等我有一个想法，我可以在终端中通过在scrapy命令中传递LIMIT，比如scrapy crawl my_spider scrape=1000等等但我想在Spider中执行此操作，所以我只运行了一次

我有一个Scrapy项目，它从数据库中读取100万个产品ID，然后开始根据网站上的ID删除产品详细信息

我的蜘蛛正在全力工作

我想运行10个Spider实例，每个实例都分配了相同数量的产品ID

我可以这样做

从产品标识中选择COUNT（*），然后将其除以10，然后执行
从产品ID限制0、N中选择*等
我有一个想法，我可以在终端中通过在scrapy命令中传递LIMIT
，比如scrapy crawl my_spider scrape=1000
等等
但我想在Spider中执行此操作，所以我只运行了一次Spider，然后它在Spider中运行了10个相同Spider的进程。
一种方法是使用CrawlerProcess帮助类或CrawlerRunner类
import scrapy
from scrapy.crawler import CrawlerProcess

class Spider1(scrapy.Spider):
   # Your first spider definition

process = CrawlerProcess()
process.crawl(Spider1)
process.crawl(Spider1)
process.start() 

它在同一进程中运行多个spider，而不是多个进程。
在我看来，这种逻辑应该在scrapy spider之外。通常的做法是简单地将bash脚本写入unixsplit
a包含URL的文件，然后逐个迭代这些文件，每次启动一个scrapy spider，其参数为该文件：scrapy crawl-a file=xab
我擅长PHP，因此我可以为此编写一个PHP脚本……）好建议




[asp.net mvc]相关文章推荐



                                                        
Asp.net mvc 绑定排除Asp.net MVC不'；不能在LINQ实体上工作
asp.net-mvclinqbinding 
Asp.net mvc 我们是否只在ASP.NETMVC应用程序中测试控件类？
asp.net-mvcunit-testing 
Asp.net mvc DDD和MVC模型持有单独实体的ID还是实体本身的ID？
asp.net-mvcdomain-driven-design 
Asp.net mvc “更改默认值”；{0}字段是必需的"；（最终解决方案？）
asp.net-mvcasp.net-mvc-2 
Asp.net mvc Ajax.BeginForm（…）不总是工作，有时使用ASP.NETMVC进行完全回发
asp.net-mvcasp.net-mvc-3jquery 
Asp.net mvc asp.net网站应在何处保存上载的文件，以及如何为这些文件创建下载链接？
asp.net-mvcfile-uploaddownload 
Asp.net mvc 构建REST服务的最佳.NETAPI是什么
asp.net-mvcwcfrest 
Asp.net mvc 类型或命名空间名称'；晚餐表演'；命名空间中不存在'；NerdDinner.Models'；当尝试实现部分表单时
asp.net-mvc 
Asp.net mvc 更改URL以删除查询字符串变量名
asp.net-mvcasp.net-mvc-3model-view-controllerurl-rewritingrouting 
Asp.net mvc JSTree绑定上的Ajax调用；create.jstree"；因为contextmenu不工作
asp.net-mvc 
Asp.net mvc 使用jquery get加载html部分视图
asp.net-mvcjqueryasp.net-mvc-4 
Asp.net mvc 微风&x2B；具有密钥不是identity的实体的EF（DatabaseGenerateOption.None）
asp.net-mvcentity-frameworkbreeze 
Asp.net mvc MVC电影项目-多个错误
asp.net-mvcasp.net-mvc-4 
Asp.net mvc 一瞥显示负时间测量值
asp.net-mvcperformanceweb 
Asp.net mvc 将ASP.NET MVC网站移动到服务器
asp.net-mvcvisual-studioiismodel-view-controllerserver 
Asp.net mvc 使用一个foreach从2个数据库表中获取数据
asp.net-mvcdatabaseloopsdrop-down-menu 
Asp.net mvc MVC&x2B的正确结构是什么；API&x2B；身份验证服务器项目
asp.net-mvcrestapi 
Asp.net mvc 使用MVC5应用程序在Google Chrome上禁用自动完成选项
asp.net-mvc 
Asp.net mvc 存储帐户-正在访问的帐户不支持http
asp.net-mvcazure 
Asp.net mvc 如何将此路径从mvc控制器映射到web api控制器？
asp.net-mvcasp.net-web-api 
                                       





随机文章推荐



                                                        
Iis Vista中的开发有任何限制吗
iis 
经典ASP/IIS6：如何搜索服务器&x2019；什么是哑剧地图？
iisasp-classic 
IIS管理器扩展性-编辑集合
iisplugins 
Windows IIS不支持favicon.ico
iis 
使IIS7.5使用自定义错误页面
iis 
如何使IIS8中的站点可供全世界访问？
iisweb 
如何通过IIS访问Plone站点
iisplone 
IIS的架构文件夹正在重置其状态
iissharepoint 
Iis 始终确保在ember.js中哈希之前有一个斜杠
iisember.js 
如何进行IIS站点/内容备份？
iis 
IIS错误：不支持远程连接
iiswindows-10 
Iis 我如何安全地授予一个公共IP地址访问我的[big org]intranet匿名非ssl web应用程序？
我的内部网上有一个匿名的非SSL web应用程序。Url是。此应用程序使用ajax刷新其更新面板，并且是无会话的
我想将其公开给一个具有公共ip 1.1.1.1的外部源
Source仅允许对我们的网关进行post/get操作，该网关具有全局ip 2.2.2.2
我希望SSL、https和用户身份验证（user/pw）介于1.1.1.1和2.2.2.2之间
我只希望我的web应用程序运行一个实例（数据库
iisnetworkingrouting 
Iis 试图浏览到虚拟目录时出现503错误
iis 
Iis 带屏蔽的DNS转发（重定向）
iisdns 
IIS绑定和google分析
iisgoogle-analytics 
iis作为kestrel的反向代理服务器
iismodel-view-controllerasp.net-core 
Iis 如何添加头X-XSS-1保护；模式=通过appcmd的块
iis 
IIS中的环境变量继承
iisasp.net-core 
网站下特定文件夹的iis动态ip限制
iis 
Iis 如果文件名不是拉丁语，请使用错误名称进行windows备份
iis


                                        

                                        
                                        


                                                
                                                        [scrapy]相关推荐
                                                        
在scrapy中，对crawler.engine.crawl（）的调用是否绕过节流机制？
									Scrapy
							 
使用Scrapy以固定的时间间隔输出和输入带宽
									Scrapy
							 
我们如何从splash+；scrapyjs+；没有任何产量要求的刮擦？
									Scrapy
							 
如何从Scrapy获得UTF-8编码的unicode输出？
									Scrapy
							 
使用Scrapy框架从另一个页面获取每个列表项的额外详细信息
									Scrapy
							 
SCRAPY-如何设置项目创建的默认路径
									Scrapy
							 
Scrapy-为什么要更改选项卡选择器？
									Scrapy
							 
Scrapy 刮片错误：请求url中缺少方案
									Scrapy
							 
Scrapy脚本不工作错误：“0”；ReactorNotRestartable“；
									Scrapy
							 
Scrapy 刮除引号中div标记下的文本
									Scrapy
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ssas
Hybris
D
Syntax
Symfony1
Io
Powerbi
Autocomplete
Ipad
Xslt
Sequelize.js
.net Core
Swift3
Twig
Graphql
Caching
Debian
Https
Path
Internationalization
Github
Google Api
Drop Down Menu
Linq To Sql
Google Sheets
Dependency Injection
Websocket
Jvm
Magento2
Indexing
Orm
Apache Camel
Gatsby
Ms Office
Windows Services
Drupal 7
Mariadb
Spring Boot
Processing
Angular6
Stream
Google Chrome
Codeigniter
Qml
Jar
Filter
Notepad++
Plot
Coldfusion
Sparql
Ajax
Hazelcast
Vb6
Meteor
Dojo
Module
Ios6
Android Ndk
Neural Network
Karate
Navigation
Arm
Heroku
Teamcity
Postgresql
Ibm Mobilefirst
Dask
Yocto
Migration
Xamarin.forms
Input
Java 8
Identityserver4
Mapreduce
Grails
Tensorflow
Time Complexity
Amazon Redshift
Swift
Documentation
Instagram
Common Lisp
C++
Bazel
Boost
Google Plus
String
Monitoring
Reference
Gdb
Amp Html
Filesystems
Firebase
Model View Controller
Listview
Jdbc
Windows
Quickbooks
Awk
Sas
Outlook
Routing
Variables
Oracle10g
Multithreading
Class
Camera
Smtp
Openlayers
Google App Maker
Encryption
Gmail
Firefox
Resharper
Cors
Google Drive Api
Visual Studio 2013
Ios8
Visual Studio 2008
Pentaho
Collections
If Statement
Statistics
Makefile
Cucumber
Cookies
Latex
Blockchain
Visual Studio 2015
Exchange Server
Mediawiki
Jquery
Django
Mpi
Sql Server 2005
Ethereum
C# 4.0
Google Compute Engine
Jetty
Jira
Tfs
Atom Editor
Python
Elm
Graphics
Gcc
Data Binding
Actions On Google
Drools
Javascript
Python 2.7
Jquery Plugins
Solr
Compilation
Yii
Erlang
Random
Fiware
Cron
Editor
Teradata
Text
Azure Sql Database
Sql
Safari
Phpunit
Umbraco
Internet Explorer
Azure Active Directory
Stanford Nlp
Office Js
Robotframework
Apache Storm
Devexpress
Xaml
Optimization
Firefox Addon
Domain Driven Design
Generics
Ios7
Gitlab
Apache2
Imagemagick
Google Colaboratory
Highcharts
Aurelia
Isabelle
Virtualbox
Asp.net
Log4net
Unity3d
Go
Postman
Pine Script
Log4j
Protractor
Gridview
Macos
Drupal 6
Weblogic
Eclipse Rcp


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网