Python 3.x 外部Python文件中的多个spider-如何随后运行_Python 3.x_Scrapy - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 外部Python文件中的多个spider-如何随后运行_Python 3.x_Scrapy - Fatal编程技术网

Python 3.x 外部Python文件中的多个spider-如何随后运行

python-3.x scrapy

Python 3.x 外部Python文件中的多个spider-如何随后运行,python-3.x,scrapy,Python 3.x,Scrapy,有人知道我如何在一个调用Scrapy的Python文件中运行多个spider吗？目前，我的代码正在中断，因为我认为下一个spider正在被阻止，因为第一个spider正在运行 if __name__ == "__main__": c = CrawlerProcess({ 'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

有人知道我如何在一个调用Scrapy的Python文件中运行多个spider吗？目前，我的代码正在中断，因为我认为下一个spider正在被阻止，因为第一个spider正在运行

if __name__ == "__main__":
    c = CrawlerProcess({
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'FEED_FORMAT': 'json',
        'FEED_URI': 'spider_one.json'
    })
    c.crawl(SpiderOneSpider)
    c.start() #the script will block here until the crawling is finished according to the documentation

    c = CrawlerProcess({
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'FEED_FORMAT': 'json',
        'FEED_URI': 'spider_two.json'
    })
    c.crawl(SpiderTwoSpider)
    c.start()

还不确定是否有更简洁的方法来编写此代码？我基本上是使用SpiderTwo来完成与SpiderOne相同的工作，但只是导出不同的JSON文件。

删除中间的

start（）

行，一旦爬虫程序启动，您将无法向爬网添加更多的爬虫

if __name__ == "__main__":
    c = CrawlerProcess({
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'FEED_FORMAT': 'json',
        'FEED_URI': 'spider_one.json'
    })
    c.crawl(SpiderOneSpider)

    c = CrawlerProcess({
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'FEED_FORMAT': 'json',
        'FEED_URI': 'spider_two.json'
    })
    c.crawl(SpiderTwoSpider)
    c.start()

如果您确实需要按顺序运行它们，我建议您看看这里：

[scrapy]相关文章推荐

Scrapy 使用刮痧来减少盗版 scrapy web-crawler

Scrapy 刮擦规则否认 scrapy

ElasticSearch管道是否存在刮痕？ scrapy

如何在申请之前在Scrapy中检查ETag？ scrapy

使用http身份验证的Scrapy ignore页面 scrapy

如何在Amazon Linux AMI上安装Scrapy scrapy

Scrapy 当一个项目得到一个空字段时，如何重试请求n次？ scrapy

使用带有飞溅的scrapy shell返回空值 scrapy

Scrapy XHR请求提取了大量HTML内容，我如何对其进行刮取/爬网？ scrapy

Scrapy 使用扩展发送包含已删除数据的电子邮件 scrapy

Scrapy 刮板：从刮板上掉落物品 scrapy

Scrapy：设置、多个并发spider和中间件 scrapy

Scrapy 迭代在爬网时返回相同的结果 scrapy

Scrapy 仅显示spider的日志记录输出？ scrapy

随机文章推荐

如何将Teamcity连接到现有的SQLServer2005数据库 teamcity

Teamcity 团队城市+；Gallio运行测试，但未显示结果 teamcity

如何将JetBrains TeamCity与Atlassian Stash整合 teamcity

测试自动化-TeamCity+；葫芦+；吉拉+；呼吸试验 teamcity jira

Teamcity 未满足的要求：存在吞咽 teamcity gulp

Selenium网格和TeamCity集成 teamcity automated-tests

从javascript建立teamcity会话 teamcity

如何在teamcity多参数规范中指定空格或制表符作为分隔符 teamcity

TeamCity功能分支工件依赖项 teamcity

TeamCity子构建中未更新相关参数 teamcity

[python 3.x]相关推荐

Tags

Drop Down Menu Google Cloud Platform Glassfish Zend Framework Excel Reflection Editor Silverlight 4.0 Oop Audio Ios8 Uml Oracle10g Asp.net Mvc 2 Docusignapi .net Asp.net Web Api Latex Ravendb Gps Templates Ssis Stored Procedures Joomla Tridion Shell Gmail Webpack Datetime Sql Server 2012 Keyboard Elixir Oracle Apex Grep Recursion Process Ruby Doctrine Orm Ldap Curl Data Structures Django Models Jetty Android Studio Join Botframework Sprite Kit Email Ip Xampp Mdx Air Visual Studio 2015 Windbg Text Speech Recognition Plone Testing Loopbackjs Graph Bazel Deployment Plot Plugins Kendo Ui Google Visualization Robotframework Ubuntu Fiware Cuda Signalr Corda Tags Outlook Linux Unit Testing Ignite Xamarin.forms Openshift Highcharts Seo Heroku Interface Documentation Coding Style Dom Search Ssas Codenameone Ibm Mobilefirst Elm Artifactory Html5 Canvas Spring Cloud Amazon Ec2 Ios5 Swift3 Sapui5 Glsl Apache2 Sqlite Ms Access Grails Discord.js Cucumber Asp.net Mvc 4 Office Js Indexing Linker Android Ndk Ipad Here Api Orm Build Parsing Notepad++ Pointers Weblogic If Statement Flash Streaming Django Delphi Timer Microsoft Graph Api Programming Languages Post Reference Project Management R Java Me Jqgrid Mediawiki .htaccess Parallel Processing Web Crawler Laravel Floating Point Smalltalk Listview Virtual Machine Ckeditor Ftp Winapi C++11 Kubernetes Lotus Notes Jakarta Ee Prolog Terraform C# Macos Compiler Construction Express Libgdx Algorithm Google Maps Azure Functions Mqtt Mod Rewrite Xcode4 Dns Selenium Compilation Xamarin.ios Razor Jersey Amazon Web Services Sqlalchemy Aws Lambda Gwt Go Keras Https Triggers Spotify Routing Antlr Typescript Cypress Qml Db2 Asterisk Validation Artificial Intelligence Google Chrome Extension Gulp Cygwin Angular Jquery Ui Pascal Numpy Jmeter Sbt Sharepoint 2007 Youtube Api Amp Html Fluent Nhibernate Hybris Qt Actions On Google

Copyright © 2024. All Rights Reserved by - Fatal编程技术网