Python Scrapy：仅获取ALIGN=RIGHT的td元素_Python_Web Crawler_Scrapy

Python Scrapy：仅获取ALIGN=RIGHT的td元素

python web-crawler scrapy

Python Scrapy：仅获取ALIGN=RIGHT的td元素,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,我正在使用scrapy从该网站上刮取数据：我需要把UFO目击的日期和数量分开，是的，很令人兴奋这里有一个我正在刮的例子 108 因此，在本例中，日期=2013年3月，计数=108 现在日期不是问题，因为我可以 hxs.select('//tbody//td//font//a//text()').extract() 获取“a”标记内的文本但是有没有一种方法可以从样式为ALIGN=RIGHT的td元素中获取文本。我已经看过了文档和选择器，但是我很困惑 hxs.select('//tbo

我正在使用scrapy从该网站上刮取数据：

我需要把UFO目击的日期和数量分开，是的，很令人兴奋

这里有一个我正在刮的例子

因此，在本例中，日期=2013年3月，计数=108

现在日期不是问题，因为我可以

hxs.select('//tbody//td//font//a//text()').extract()

获取“a”标记内的文本

但是有没有一种方法可以从样式为ALIGN=RIGHT的td元素中获取文本。我已经看过了文档和选择器，但是我很困惑

hxs.select('//tbody[contains(td, "ALIGN")]').extract()

？

这将从所有属性为

ALIGN=“RIGHT”

的

中选择文本：

这将从所有属性为

ALIGN=“RIGHT”

的

中选择文本：

出于某种奇怪的原因，我需要两个“/”，所以如果我这样写的话，你的行就可以工作了：hxs.select（“//tbody//td[contains（@align，“RIGHT”）]//text（））.extract（）--非常感谢：D

/text（）

匹配紧跟在结束标记之后的文本

//text（）

匹配

中所有子标签的所有文本。

。出于某种奇怪的原因，我需要两个“/”，因此如果我这样写，您的行可以工作：hxs.select（“//tbody//td[contains（@align，“RIGHT”）///text（））.extract（）--非常感谢：D

/text（）

匹配紧跟在结束标记之后的文本

//text（）

匹配

中所有子标签的所有文本。

。

hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()