Web scraping 选择（“a/text（）”）。提取（）不起作用_Web Scraping_Scrapy

Web scraping 选择（“a/text（）”）。提取（）不起作用

web-scraping scrapy

Web scraping 选择（“a/text（）”）。提取（）不起作用,web-scraping,scrapy,Web Scraping,Scrapy,我正在尝试获取href标记中的文本。基本上，我是在努力消除android的bug 我在其他href上进行了测试，效果很好。有人知道为什么在上面显示bug摘要的href上不起作用吗。谢谢您的迭代变量与您正在迭代的变量同名，这不是一个好主意。此外，您还必须每隔一行选择： class MySpider(BaseSpider): name = "craig" start_urls = ["https://code.google.com/p/android/issues/list"]

我正在尝试获取href标记中的文本。基本上，我是在努力消除android的bug

我在其他href上进行了测试，效果很好。有人知道为什么在上面显示bug摘要的href上不起作用吗。谢谢

您的迭代变量与您正在迭代的变量同名，这不是一个好主意。此外，您还必须每隔一行选择：

class MySpider(BaseSpider):
    name = "craig"
    start_urls = ["https://code.google.com/p/android/issues/list"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        table = hxs.select("//table[@id='resultstable']")

        for title in table.select("tr/td[@class='vt col_4'][2]"):
            item = CraiglistSampleItem()
            item["id"] = title.select("a/text()").extract()
            item["type"] = title.select("a/@href").extract()

            yield item

class MySpider(BaseSpider):
name = "craig"

start_urls = ["https://code.google.com/p/android/issues/list"]

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    titles = hxs.select("//td[@class='vt col_4']")
    items = []
    for titles in titles:
        item = CraiglistSampleItem()
        item ["id"] = titles.select("a/text()").extract()
        item ["type"] = titles.select("a/@href").extract()
        items.append(item)
    return items

class MySpider(BaseSpider):
    name = "craig"
    start_urls = ["https://code.google.com/p/android/issues/list"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        table = hxs.select("//table[@id='resultstable']")

        for title in table.select("tr/td[@class='vt col_4'][2]"):
            item = CraiglistSampleItem()
            item["id"] = title.select("a/text()").extract()
            item["type"] = title.select("a/@href").extract()

            yield item