Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/react-native/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy忽略允许的域_Python_Scrapy_Scrapy Spider - Fatal编程技术网

Python Scrapy忽略允许的域

Python Scrapy忽略允许的域,python,scrapy,scrapy-spider,Python,Scrapy,Scrapy Spider,我从一个包含混合域的redis列表开始请求poping。 我已经在设置中启用了办公中间件 class LazadaSpider(BaseSpider): name = "lazada" allowed_domains = ['lazada.com.my', 'lazada.co.id', 'lazada.vn', 'lazada.com.ph', 'lazada.co.th', 'lazada.sg'] def __init__(self, country, *args

我从一个包含混合域的redis列表开始请求poping。 我已经在
设置中启用了
办公中间件

class LazadaSpider(BaseSpider):
    name = "lazada"
    allowed_domains = ['lazada.com.my', 'lazada.co.id', 'lazada.vn', 'lazada.com.ph', 'lazada.co.th', 'lazada.sg']

    def __init__(self, country, *args, **kwargs):
        self.country = country
        super(LazadaSpider, self).__init__(*args, **kwargs)

我有什么遗漏吗?不确定这是否是因为我正在使用自定义的
BaseSpider
而不是
scrapy.Spider

你怎么知道它们被忽略了?你是否在某个地方收到一条明确表示它们被忽略的消息,或者它们只是没有显示在输出中?日志显示,scrapy仍在爬行那些未在
允许的\u域中列出的URL
,例如
2017-07-05 17:31:46[scrapy.core.engine]调试:Crawled(200)
添加John所说的内容,您也不需要设置OffsiteMiddleware设置,因为它是默认设置的:@HenriqueCoura我同意,但即使没有它,我的不允许的URL仍然被爬网。我会删除这个谢谢你能用你的请求编辑你的帖子吗?如果您设置dont_filter=True OffsiteMiddleware将允许它们,您如何知道它们正在被忽略?你是否在某个地方收到一条明确表示它们被忽略的消息,或者它们只是没有显示在输出中?日志显示,scrapy仍在爬行那些未在
允许的\u域中列出的URL
,例如
2017-07-05 17:31:46[scrapy.core.engine]调试:Crawled(200)
添加John所说的内容,您也不需要设置OffsiteMiddleware设置,因为它是默认设置的:@HenriqueCoura我同意,但即使没有它,我的不允许的URL仍然被爬网。我会删除这个谢谢你能用你的请求编辑你的帖子吗?如果您将dont_filter=True设置为OffsiteMiddleware,则OffsiteMiddleware将允许它们
SPIDER_MIDDLEWARES = {
   'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500
   # 'scrapper.middlewares.ScrapperSpiderMiddleware': 543,
}