Python 使用scrapy获取页面中的所有链接文本和href_Python_Scrapy

Python 使用scrapy获取页面中的所有链接文本和href

python scrapy

Python 使用scrapy获取页面中的所有链接文本和href,python,scrapy,Python,Scrapy,这是我的代码，但title_to_save和href_to_save返回无我想获取标记“a”及其href中的所有文本 class LinkSpider(scrapy.Spider): name = "link" def start_requests(self): urlBasang = "https://bloomberg.com" yield scrapy.Request(url = urlBasang, callback = self.par

这是我的代码，但title_to_save和href_to_save返回无

我想获取标记“a”及其href中的所有文本

class LinkSpider(scrapy.Spider):
    name = "link"
    def start_requests(self):
        urlBasang = "https://bloomberg.com"
        yield scrapy.Request(url = urlBasang, callback = self.parse)
    def parse(self, response):
        newCsv = open('data_information/link.csv', 'a')
        for j in response.xpath('//a'):

            title_to_save = j.xpath('/text()').extract_first()
            href_to_save= j.xpath('/@href').extract_first()

            print("test")

            print(title_to_save)
            print(href_to_save)

            newCsv.write(title_to_save+ "\n")
        newCsv.close()

注意路径前的点（我使用

get

而不是

extract\u first

，原因是）

在输出csv上，您可能知道，但您可能应该

生成您想要写出的信息，然后使用-o data\u information/link.csv
选项运行爬行器，该选项比打开文件以附加到parse
方法中要灵活一些。所以你的代码看起来像
title_to_save = j.xpath('./text()').get()
href_to_save= j.xpath('./@href').get()

或者：只需text（）
和@href
class LinkSpider(scrapy.Spider):
    name = "link"
    # No need for start_requests for as this is the default anyway
    start_urls = ["https://bloomberg.com"]  

    def parse(self, response):
        for j in response.xpath('//a'):

            title_to_save = j.xpath('./text()').get()
            href_to_save= j.xpath('./@href').get()

            print("test")
            print(title_to_save)
            print(href_to_save)

            yield {'title': title_to_save}