Python 刮擦式爬行深度不工作
我正在写一些零碎的代码来抓取第一页和给定网页的一个附加深度 不知何故,我的爬虫没有进入额外的深度。只需抓取给定的起始URL并结束其操作 我添加了filter_links回调函数,但即使没有调用tht,规则也会被忽略。可能的原因是什么?我可以改变什么使其遵循规则Python 刮擦式爬行深度不工作,python,scrapy,scrapy-spider,Python,Scrapy,Scrapy Spider,我正在写一些零碎的代码来抓取第一页和给定网页的一个附加深度 不知何故,我的爬虫没有进入额外的深度。只需抓取给定的起始URL并结束其操作 我添加了filter_links回调函数,但即使没有调用tht,规则也会被忽略。可能的原因是什么?我可以改变什么使其遵循规则 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from crawlWeb.items import CrawlwebItem from scrapy.
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from crawlWeb.items import CrawlwebItem
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class DmozSpider(CrawlSpider):
name = "premraj"
start_urls = [
"http://www.broadcom.com",
"http://www.qualcomm.com"
]
rules = [Rule(SgmlLinkExtractor(), callback='parse',process_links="process_links",follow=True)]
def parse(self, response):
#print dir(response)
#print dir(response)
item=CrawlwebItem()
item["html"]=response.body
item["url"]=response.url
yield item
def process_links(self,links):
print links
print "hey!!!!!!!!!!!!!!!!!!!!!"
盒子里有一个警告框。它说: 在编写爬网爬行器规则时,避免使用解析作为回调,因为 爬行爬行器使用解析方法本身来实现其逻辑。 因此,如果重写解析方法,爬网爬行器将不再 工作
您的代码可能无法按预期工作,因为您使用了
parse
作为回调。谢谢!这就是问题所在!