Python 如何将两个用户定义的参数传递给scrapy spider_Python_Scrapy - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/312.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将两个用户定义的参数传递给scrapy spider_Python_Scrapy - Fatal编程技术网

Python 如何将两个用户定义的参数传递给scrapy spider

python scrapy

Python 如何将两个用户定义的参数传递给scrapy spider,python,scrapy,Python,Scrapy,下面，我编写了以下简单的spider： import scrapy class Funda1Spider(scrapy.Spider): name = "funda1" allowed_domains = ["funda.nl"] def __init__(self, place='amsterdam'): self.start_urls = ["http://www.funda.nl/koop/%s/" % place] def parse

下面，我编写了以下简单的spider：

import scrapy

class Funda1Spider(scrapy.Spider):
    name = "funda1"
    allowed_domains = ["funda.nl"]

    def __init__(self, place='amsterdam'):
        self.start_urls = ["http://www.funda.nl/koop/%s/" % place]

    def parse(self, response):
        filename = response.url.split("/")[-2] + '.html'
        with open(filename, 'wb') as f:
            f.write(response.body)

这似乎有效；例如，如果我在命令行中使用

scrapy crawl funda1 -a place=rotterdam

它生成一个类似于的

rotterdam.html

。接下来我想扩展它，以便可以指定一个子页面，例如。我尝试了以下方法：

import scrapy

class Funda1Spider(scrapy.Spider):
    name = "funda1"
    allowed_domains = ["funda.nl"]

    def __init__(self, place='amsterdam', page=''):
        self.start_urls = ["http://www.funda.nl/koop/%s/p%s/" % (place, page)]

    def parse(self, response):
        filename = response.url.split("/")[-2] + '.html'
        with open(filename, 'wb') as f:
            f.write(response.body)

但是，如果我尝试使用

scrapy crawl funda1 -a place=rotterdam page=2

我得到以下错误：

crawl: error: running 'scrapy crawl' with more than one spider is no longer supported

我真的不理解这个错误消息，因为我没有尝试抓取两个爬行器，只是尝试传递两个关键字参数来修改

start\u URL

。我怎样才能做到这一点呢？

在提供多个参数时，您需要为每个参数添加前缀
-a
适用于您的案例的正确行是：

scrapy crawl funda1-a place=rotterdam-a page=2

[scrapy]相关文章推荐

Scrapy 导致内存泄漏的请求对象 scrapy

Scrapy Item Loaders-从给定节点而不是根选择器开始处理 scrapy

Scrapy 我如何混合两种类型的刮痧 scrapy

Scrapy 刮皮不'；是否添加并非所有项目中都存在的字段？ scrapy

Scrapy 刮花设置输入值？ scrapy

Scrapy 未写入的粗糙结果 scrapy

Scrapy-如何定义csv导出的结构（列等） scrapy

Scrapyd Deploy:由于使用os路径设置目录而导致的错误 scrapy

如何在scrapy中记录上次运行时间，以便scrapy可以从上次运行时间开始进行刮取（URL包含开始日期字段） scrapy

我正在尝试用Scrapy刮一个网站。它通过“robots.txt”访问robots.txt文件；状态代码200“；但是"；555“；终端上 scrapy

尝试在不启动scrapy project的情况下从.py文件下载文件。在python文件中创建自定义管道，此错误如下所示 scrapy

随机文章推荐

[python]相关推荐

Tags

Stm32 Haskell Azure Sql Database Typo3 Qml Logstash Windows Runtime Angular Material Iis 7 Web Applications Ssis Perforce Prestashop Jar Yocto Vim Ibm Cloud Sql Server 2008 Xna Codeigniter Formatting Lotus Notes Hyperlink Abap Opencv Ruby On Rails 3.1 Checkbox Wordpress Bison Omnet++ For Loop Alfresco Windows Store Apps Spring Security Wso2 Tsql Activerecord Automated Tests Ibm Mobilefirst Dialogflow Es Svn Identityserver4 Raspberry Pi Operating System Jaxb Google Chrome Devtools Mapreduce Lisp Html Erlang Qt4 Netlogo Office365 Google Bigquery Bluetooth Loopbackjs Sharepoint 2007 Workflow Robotframework Docker Compose Directx Migration Arrays Smtp Ios8 3d Amazon Web Services Sip Hbase Dataframe Jsf 2 Material Ui Variables Cron Prolog Gstreamer Tags Security Jwt Electron Exception Handling Streaming Notepad++ Discord.js Stata If Statement Quickbooks Google Cloud Firestore Vhdl Air Types Clang Amazon S3 Arm Mysql Windbg Asp.net Mvc 2 Url Rewriting Mongoose Angular6 Data Binding Autodesk Forge Rest Jquery Ui Android Ndk Sequelize.js Grails Image Ecmascript 6 Nestjs Vector Spring Integration Three.js Pointers Graphviz Logging Yii2 Ios Cakephp Lucene Bots Angularjs Phpstorm Input Visual Studio 2017 Asp.net Ms Office Cocoa Sencha Touch 2 Excel Formula Magento2 Centos Youtube Installation Uiview Flask Wxpython Sails.js Class Opencart Design Patterns Open Source Scala Ruby On Rails 4 Less Proxy Synchronization EmptyTag Matrix Unicode Floating Point Macros Cloud Requirejs Makefile Directory Combobox Github Apache Camel Eclipse Rcp Keyboard Coq Functional Programming Pip Xaml Ckeditor Charts Gulp Maven Tabs Webgl Internet Explorer Javafx 2 Pascal Extjs4 Ssh String Opengl Es Collections Shopify Mod Rewrite Gwt Nhibernate Fortran Wpf Single Sign On Linq To Sql Adobe Aws Lambda Windows Phone 7 Modelica Cocos2d Iphone Ember.js Websocket Ada Dojo Kotlin Random .net Socket.io Phpmyadmin

Copyright © 2024. All Rights Reserved by - Fatal编程技术网