Python 刮板刮网器无法抓取链接_Python_Screen Scraping_Scrapy

Python 刮板刮网器无法抓取链接

python scrapy

Python 刮板刮网器无法抓取链接,python,screen-scraping,scrapy,Python,Screen Scraping,Scrapy,我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行 class TwistedWebSpider(BaseSpider): name = "twistedweb3" allowed_domains = ["twistedmatrix.com"] start_urls = [ "http://twistedmatrix.com/documents/current/web/howto/", ] rules = ( Rule(Sgml

我对刮痧很陌生。这是我的蜘蛛在扭曲的网中爬行

class TwistedWebSpider(BaseSpider):

    name = "twistedweb3"
    allowed_domains = ["twistedmatrix.com"]
    start_urls = [
        "http://twistedmatrix.com/documents/current/web/howto/",
    ]
    rules = (
        Rule(SgmlLinkExtractor(),
            'parse',
            follow=True,
        ),
    )
    def parse(self, response):
        print response.url
        filename = response.url.split("/")[-1]
        filename = filename or "index.html"
        open(filename, 'wb').write(response.body)

当我运行

scrapy-ctl.py crawl twistedweb3

时，它仅获取

为了获取

index.html

内容，我尝试使用

SgmlLinkExtractor

，它按照我的预期提取链接，但这些链接无法跟随

你能告诉我哪里出了问题吗

假设我想要得到css、javascript文件。我如何做到这一点？我的意思是获取完整的网站？

规则

属性属于

爬行蜘蛛

。使用

类MySpider（爬行蜘蛛）

。另外，当您使用

CrawlSpider

时，您不能重写

parse

方法，

改为使用

parse_response

或其他类似名称。

rules

属性属于

CrawlSpider

。使用

类MySpider（CrawlSpider）

。另外，当您使用

CrawlSpider

时，您不能重写

parse

方法，

相反，请使用

parse\u response

或其他类似名称。

此处显示的代码不足，无法猜测问题所在。我建议您完成精细的“刮擦”教程，然后您的问题将自行回答，或者您将能够解释问题是什么。我确实遵循了教程。正如你在上面看到的，我对爬行器做了一点修改。你在这里没有显示足够的代码来猜测你的问题是什么。我建议您完成精细的“刮擦”教程，然后您的问题将自行回答，或者您将能够解释问题是什么。我确实遵循了教程。我对蜘蛛做了一点修改，如上图所示。谢谢。你救了我一天。按照你的建议修改后它会工作。你救了我一天。按照您的建议进行修改后，它可以工作