Python Scrapy:仅获取ALIGN=RIGHT的td元素

Python Scrapy:仅获取ALIGN=RIGHT的td元素,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,我正在使用scrapy从该网站上刮取数据: 我需要把UFO目击的日期和数量分开,是的,很令人兴奋 这里有一个我正在刮的例子 108 因此,在本例中,日期=2013年3月,计数=108 现在日期不是问题,因为我可以 hxs.select('//tbody//td//font//a//text()').extract() 获取“a”标记内的文本 但是有没有一种方法可以从样式为ALIGN=RIGHT的td元素中获取文本。 我已经看过了文档和选择器,但是我很困惑 hxs.select('//tbo

我正在使用scrapy从该网站上刮取数据:

我需要把UFO目击的日期和数量分开,是的,很令人兴奋

这里有一个我正在刮的例子


108

因此,在本例中,日期=2013年3月,计数=108

现在日期不是问题,因为我可以

hxs.select('//tbody//td//font//a//text()').extract()
获取“a”标记内的文本

但是有没有一种方法可以从样式为ALIGN=RIGHT的td元素中获取文本。 我已经看过了文档和选择器,但是我很困惑

hxs.select('//tbody[contains(td, "ALIGN")]').extract()

这将从所有属性为
ALIGN=“RIGHT”
中选择文本:


这将从所有属性为
ALIGN=“RIGHT”
中选择文本:


出于某种奇怪的原因,我需要两个“/”,所以如果我这样写的话,你的行就可以工作了:hxs.select(“//tbody//td[contains(@align,“RIGHT”)]//text()).extract()--非常感谢:D
/text()
匹配紧跟在结束标记之后的文本
//text()
匹配
中所有子标签的所有文本。
。出于某种奇怪的原因,我需要两个“/”,因此如果我这样写,您的行可以工作:hxs.select(“//tbody//td[contains(@align,“RIGHT”)///text()).extract()--非常感谢:D
/text()
匹配紧跟在结束标记之后的文本
//text()
匹配
中所有子标签的所有文本。
hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()