Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 刮板刮网器无法抓取链接_Python_Screen Scraping_Scrapy - Fatal编程技术网

Python 刮板刮网器无法抓取链接

Python 刮板刮网器无法抓取链接,python,screen-scraping,scrapy,Python,Screen Scraping,Scrapy,我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行 class TwistedWebSpider(BaseSpider): name = "twistedweb3" allowed_domains = ["twistedmatrix.com"] start_urls = [ "http://twistedmatrix.com/documents/current/web/howto/", ] rules = ( Rule(Sgml

我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行

class TwistedWebSpider(BaseSpider):

    name = "twistedweb3"
    allowed_domains = ["twistedmatrix.com"]
    start_urls = [
        "http://twistedmatrix.com/documents/current/web/howto/",
    ]
    rules = (
        Rule(SgmlLinkExtractor(),
            'parse',
            follow=True,
        ),
    )
    def parse(self, response):
        print response.url
        filename = response.url.split("/")[-1]
        filename = filename or "index.html"
        open(filename, 'wb').write(response.body)
当我运行
scrapy-ctl.py crawl twistedweb3
时,它仅获取

为了获取
index.html
内容,我尝试使用
SgmlLinkExtractor
,它按照我的预期提取链接,但这些链接无法跟随

你能告诉我哪里出了问题吗


假设我想要得到css、javascript文件。我如何做到这一点?我的意思是获取完整的网站?

规则
属性属于
爬行蜘蛛
。使用
类MySpider(爬行蜘蛛)
。 另外,当您使用
CrawlSpider
时,您不能重写
parse
方法,
改为使用
parse_response
或其他类似名称。

rules
属性属于
CrawlSpider
。使用
类MySpider(CrawlSpider)
。 另外,当您使用
CrawlSpider
时,您不能重写
parse
方法,
相反,请使用
parse\u response
或其他类似名称。

此处显示的代码不足,无法猜测问题所在。我建议您完成精细的“刮擦”教程,然后您的问题将自行回答,或者您将能够解释问题是什么。我确实遵循了教程。正如你在上面看到的,我对爬行器做了一点修改。你在这里没有显示足够的代码来猜测你的问题是什么。我建议您完成精细的“刮擦”教程,然后您的问题将自行回答,或者您将能够解释问题是什么。我确实遵循了教程。我对蜘蛛做了一点修改,如上图所示。谢谢。你救了我一天。按照你的建议修改后它会工作。你救了我一天。按照您的建议进行修改后,它可以工作