Web scraping 选择(“a/text()”)。提取()不起作用
我正在尝试获取href标记中的文本。基本上,我是在努力消除android的bugWeb scraping 选择(“a/text()”)。提取()不起作用,web-scraping,scrapy,Web Scraping,Scrapy,我正在尝试获取href标记中的文本。基本上,我是在努力消除android的bug 我在其他href上进行了测试,效果很好。有人知道为什么在上面显示bug摘要的href上不起作用吗。谢谢 您的迭代变量与您正在迭代的变量同名,这不是一个好主意。此外,您还必须每隔一行选择: class MySpider(BaseSpider): name = "craig" start_urls = ["https://code.google.com/p/android/issues/list"]
我在其他href上进行了测试,效果很好。有人知道为什么在上面显示bug摘要的href上不起作用吗。谢谢 您的迭代变量与您正在迭代的变量同名,这不是一个好主意。此外,您还必须每隔一行选择:
class MySpider(BaseSpider):
name = "craig"
start_urls = ["https://code.google.com/p/android/issues/list"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
table = hxs.select("//table[@id='resultstable']")
for title in table.select("tr/td[@class='vt col_4'][2]"):
item = CraiglistSampleItem()
item["id"] = title.select("a/text()").extract()
item["type"] = title.select("a/@href").extract()
yield item
class MySpider(BaseSpider):
name = "craig"
start_urls = ["https://code.google.com/p/android/issues/list"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//td[@class='vt col_4']")
items = []
for titles in titles:
item = CraiglistSampleItem()
item ["id"] = titles.select("a/text()").extract()
item ["type"] = titles.select("a/@href").extract()
items.append(item)
return items
class MySpider(BaseSpider):
name = "craig"
start_urls = ["https://code.google.com/p/android/issues/list"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
table = hxs.select("//table[@id='resultstable']")
for title in table.select("tr/td[@class='vt col_4'][2]"):
item = CraiglistSampleItem()
item["id"] = title.select("a/text()").extract()
item["type"] = title.select("a/@href").extract()
yield item