为什么Scrapy很慢？_Scrapy - Fatal编程技术网

为什么Scrapy很慢？

scrapy

为什么Scrapy很慢？,scrapy,Scrapy,我正在抓取一个网站，并解析一些内容+图片，但即使是100页左右的简单网站，这项工作也需要数小时。我正在使用以下设置。任何帮助都将不胜感激。我已经看到了这个问题，但无法获得太多的洞察力 EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1} LOGSTATS_INTERVAL = 60.0 RETRY_TIMES = 4 CONCURRENT_REQUESTS = 32 CONCURRENT_REQUESTS_PER_DOMAIN = 12 CON

我正在抓取一个网站，并解析一些内容+图片，但即使是100页左右的简单网站，这项工作也需要数小时。我正在使用以下设置。任何帮助都将不胜感激。我已经看到了这个问题，但无法获得太多的洞察力

EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75

您确定网站的响应正常吗

设置DOWNLOAD_DELAY=0.75将强制请求按顺序进行，并在请求之间添加0.75秒的延迟。如果你删除它，你的爬网速度肯定会更快，但是，每个域有12个并发请求，小心不要攻击网站太过激烈

即使有延迟，也不应该需要几个小时，所以我想知道这个网站是慢还是没有反应。有些网站会这样对待机器人。

所有网站都是如此。因此，我担心Scrapy架构是否具有足够的可扩展性，可以用于此类工作。顺便说一句，在标准条件下的预期费率是多少。e、 g.N页数/小时左右？如果你的机器人没有网络限制，通常你会在几秒钟内抓取几百页。问题不在于粗糙的体系结构。更可能的情况是设置、硬件/网络、正在爬网的站点、蜘蛛代码等。Shane，当你说“下载延迟=0.75将强制请求按顺序进行…”你的意思是

并发请求设置将被忽略吗？不，设置下载延迟不会使并发请求被忽略




[openlayers 3]相关文章推荐



                                                        
Openlayers 3 如何在Openlayers 3中获取用户绘制的圆的坐标？
openlayers-3 
Openlayers 3 TileVector-loadend事件的可能性
openlayers-3 
Openlayers 3 无法获取要素坐标，因此我可以获取其最近的要素
openlayers-3 
Openlayers 3 如何在openalyers 3上使用2.5D？
openlayers-3 
Openlayers 3 OL3：通过坐标获取覆盖层
openlayers-3 
Openlayers 3 选择交互“选择”事件
openlayers-3 
                                       





随机文章推荐



                                                        
Npm 是否仅从package.json安装一个软件包？
npm 
npm添加根CA
npm 
巴贝尔没有'；无法从npm脚本运行
npm 
通过cmd行向npm组织添加新用户
npm 
在电子应用中使用基础
我正在创建一个新的电子应用程序，我想使用Apple和SASS的基础。问题是基金会要我创建一个新的项目，而我宁愿通过“代码> NPM < /代码>添加基础，或者在必要时使用 Buver < /代码>。
npmzurb-foundationelectron 
我能'；我似乎不知道如何解决我的npm问题
npmterminal 
Npm Package.JSON文件依赖项
npm 
npm安装devtool-g，错误
所以你的问题是为什么这个许可被拒绝？DevTool不是Electron的一部分吗？
sudo npm install devtool -g
Password:
/usr/local/bin/devtool -> /
npmelectron 
Npm 有没有“什么”呢；“子包”；用于导入部分虚拟化的react？
npmimport 
Npm 错误：找不到模块'；wrappy'；
npm 
npm安装时使用^依赖项，而不是完全匹配项
npmdependencies 
NPM：如何更新一个依赖于另一个模块的模块
npm 
Google Cloud Builder中的自定义（或最新）npm版本
npm 
Npm `删除DEP列表而不保留错误
npm 
Npm 量角器-必须使用导入来加载ES模块
npmecmascript-6protractor 
Npm 在netlify（使用gatsby和strapi的web应用程序）中构建时出错
npmgatsby 
在docker映像中使用fork npm包
npmdocker-compose 
Npm 我的节点_模块中没有webpack.mix.js
npmwebpack 
npm错误：找不到@storybook/client的匹配版本-api@6.2.9
npm 
Npm 由于凭据存储和凭据存储不安全，web3安装失败
npm


                                        

                                        
                                        


                                                
                                                        [scrapy]相关推荐
                                                        
如何使用Scrapy在论坛上刮取其他特定页面？
									Scrapy
							 
Scrapy：如何部署多个项目？
									Scrapy
							 
Scrapy 在芹菜任务中运行刮屑蜘蛛
									Scrapy
							 
Scrapy 相对URL与绝对URL的比较
									Scrapy
							 
Scrapy 如何爬网twitch.tv，在初始http请求时html正文为空，内容由各种脚本加载
									Scrapy
							 									Web Crawler
							 
Scrapy 消除多个同名蜘蛛的刮擦警告
									Scrapy
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Cloud Foundry
Groovy
Passwords
Logging
Asp.net
Unit Testing
Twitter Bootstrap 3
Odata
Pagination
Testing
Google Plus
Pip
Ocaml
Ruby
Next.js
Graph
Timer
Autocomplete
Azure Cosmosdb
Gis
E Commerce
Notepad++
Parallel Processing
Three.js
Jsf
Continuous Integration
Serialization
Automated Tests
Cron
Jsf 2
Sql Server 2008 R2
Entity Framework 4
Sonarqube
Here Api
Wordpress
Jsp
Concurrency
Dynamics Crm 2011
Glassfish
Windows Phone
Vim
Abap
Windows 8
Eclipse
Cluster Computing
Azure
Sharepoint 2013
Jira
Matlab
Report
Vue.js
Rally
Content Management System
Swagger
Magento2
C++
Mapreduce
Grep
X86
Compression
Breeze
Stored Procedures
For Loop
Go
Jdbc
Rdf
Msbuild
Cordova
Cucumber
Properties
Pine Script
Tfs
Devexpress
Clang
Sharepoint 2010
Unicode
Tableau Api
Gitlab
Autodesk Forge
Types
Html
Text
Symfony1
Typo3
Couchdb
Amp Html
Crystal Reports
Couchbase
Openerp
Amazon Dynamodb
Oracle
Floating Point
Mediawiki
Nuget
Axapta
D3.js
Yaml
Xslt
Dll
Tomcat
Encoding
Push Notification
Mono
Events
Reference
Ckeditor
Highcharts
Sharepoint
Odoo
Openssl
Ios7
Github
Drop Down Menu
Azure Service Fabric
Cloud
Opencl
Vuejs2
Winapi
Triggers
Machine Learning
Ffmpeg
Pycharm
Memory Management
Encryption
Visual Studio 2013
Ibm Midrange
Doxygen
Reflection
Django Rest Framework
Checkbox
Excel
Spring Batch
Network Programming
Svg
.net Core
Cmd
Spring
Karate
Cocoa
Cmake
Keyboard
Delphi
Drupal 6
Programming Languages
Vb6
Embedded
Command Line
Animation
Apache
Numpy
Symfony
Airflow
Download
Keycloak
Gcc
Ip
Azure Active Directory
Hyperlink
Log4j
Iphone
Ssrs 2008
Pyspark
Methods
Date
Google Chrome Extension
Spring Security
Elm
Computer Vision
Configuration
Quickbooks
Jquery
Parse Platform
Windows Runtime
Shell
Sockets
Asp.net Mvc
Excel Formula
Jasper Reports
Login
Ms Word
Xsd
Tags
Ruby On Rails 3.1
Youtube
Ios8
Blazor
Mobile
Python
Objective C
Signalr
Tcl
Ios
Testng
Keras
Jqgrid
Oracle10g
Sqlalchemy
Azure Devops
F#
Plot
Aurelia


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网