Python 刮板刮网器无法抓取链接
我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行Python 刮板刮网器无法抓取链接,python,screen-scraping,scrapy,Python,Screen Scraping,Scrapy,我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行 class TwistedWebSpider(BaseSpider): name = "twistedweb3" allowed_domains = ["twistedmatrix.com"] start_urls = [ "http://twistedmatrix.com/documents/current/web/howto/", ] rules = ( Rule(Sgml
class TwistedWebSpider(BaseSpider):
name = "twistedweb3"
allowed_domains = ["twistedmatrix.com"]
start_urls = [
"http://twistedmatrix.com/documents/current/web/howto/",
]
rules = (
Rule(SgmlLinkExtractor(),
'parse',
follow=True,
),
)
def parse(self, response):
print response.url
filename = response.url.split("/")[-1]
filename = filename or "index.html"
open(filename, 'wb').write(response.body)
当我运行scrapy-ctl.py crawl twistedweb3
时,它仅获取
为了获取index.html
内容,我尝试使用SgmlLinkExtractor
,它按照我的预期提取链接,但这些链接无法跟随
你能告诉我哪里出了问题吗
假设我想要得到css、javascript文件。我如何做到这一点?我的意思是获取完整的网站?
规则
属性属于爬行蜘蛛
。使用类MySpider(爬行蜘蛛)
。
另外,当您使用CrawlSpider
时,您不能重写parse
方法,
改为使用
parse_response
或其他类似名称。rules
属性属于CrawlSpider
。使用类MySpider(CrawlSpider)
。
另外,当您使用CrawlSpider
时,您不能重写parse
方法,
相反,请使用
parse\u response
或其他类似名称。此处显示的代码不足,无法猜测问题所在。我建议您完成精细的“刮擦”教程,然后您的问题将自行回答,或者您将能够解释问题是什么。我确实遵循了教程。正如你在上面看到的,我对爬行器做了一点修改。你在这里没有显示足够的代码来猜测你的问题是什么。我建议您完成精细的“刮擦”教程,然后您的问题将自行回答,或者您将能够解释问题是什么。我确实遵循了教程。我对蜘蛛做了一点修改,如上图所示。谢谢。你救了我一天。按照你的建议修改后它会工作。你救了我一天。按照您的建议进行修改后,它可以工作