Python 刮擦式爬行深度不工作_Python_Scrapy_Scrapy Spider

Python 刮擦式爬行深度不工作

python scrapy

Python 刮擦式爬行深度不工作,python,scrapy,scrapy-spider,Python,Scrapy,Scrapy Spider,我正在写一些零碎的代码来抓取第一页和给定网页的一个附加深度不知何故，我的爬虫没有进入额外的深度。只需抓取给定的起始URL并结束其操作我添加了filter_links回调函数，但即使没有调用tht，规则也会被忽略。可能的原因是什么？我可以改变什么使其遵循规则 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from crawlWeb.items import CrawlwebItem from scrapy.

我正在写一些零碎的代码来抓取第一页和给定网页的一个附加深度

不知何故，我的爬虫没有进入额外的深度。只需抓取给定的起始URL并结束其操作

我添加了filter_links回调函数，但即使没有调用tht，规则也会被忽略。可能的原因是什么？我可以改变什么使其遵循规则

import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from crawlWeb.items import CrawlwebItem
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class DmozSpider(CrawlSpider):
name = "premraj"
start_urls = [
    "http://www.broadcom.com",
    "http://www.qualcomm.com"
]
rules = [Rule(SgmlLinkExtractor(), callback='parse',process_links="process_links",follow=True)]
def parse(self, response):
    #print dir(response)
    #print dir(response)
    item=CrawlwebItem()

    item["html"]=response.body
    item["url"]=response.url
    yield item
def process_links(self,links):
    print links
    print "hey!!!!!!!!!!!!!!!!!!!!!"

盒子里有一个警告框。它说：

在编写爬网爬行器规则时，避免使用解析作为回调，因为爬行爬行器使用解析方法本身来实现其逻辑。因此，如果重写解析方法，爬网爬行器将不再工作

您的代码可能无法按预期工作，因为您使用了

parse

作为回调。

谢谢！这就是问题所在！