Python 使用Scrapy解析XML子节点
我正在使用Scrapy删除一个XML文件。Scrapy为您提供了通过任何节点名称(如Python 使用Scrapy解析XML子节点,python,xml,xml-parsing,scrapy,scrapy-spider,Python,Xml,Xml Parsing,Scrapy,Scrapy Spider,我正在使用Scrapy删除一个XML文件。Scrapy为您提供了通过任何节点名称(如)进行报废的选项: 1.jpg 1.jpg 2.jpg 1.jpg 2.jpg 这是我的蜘蛛: from scrapy.spiders import XMLFeedSpider class spider(XMLFeedSpider): name='spider' start_urls=['http://www.expample.com/xml.xml'] itertag='listing' def p
)进行报废的选项:
1.jpg
1.jpg
2.jpg
1.jpg
2.jpg
这是我的蜘蛛:
from scrapy.spiders import XMLFeedSpider
class spider(XMLFeedSpider):
name='spider'
start_urls=['http://www.expample.com/xml.xml']
itertag='listing'
def parse_node(self,response,node):
self.logger.info('Hi, this is a <%s> node!: %s', self.itertag, ''.join(node.extract()))
从scrapy.spider导入XMLFeedSpider
类爬行器(XMLFeedSpider):
name='spider'
起始URL=['http://www.expample.com/xml.xml']
itertag='listing'
def parse_节点(自身、响应、节点):
self.logger.info('您好,这是一个节点!:%s',self.itertag',.join(node.extract()))
我可以使用“itertag”设置定义节点,该设置当前位于“listing”。我想先运行每个
,然后针对每个
运行每个
。如何解析子节点(子节点) 您需要建立scrapy.Item
或scrapy.http.Request
对象列表,以在parse_节点中返回
sources = [Item(src=src) in for src in node.xpath('//img/text()').extract()]
return sources
参考资料:
您需要构建scrapy.Item
或scrapy.http.请求对象的列表,以在解析节点中返回
sources = [Item(src=src) in for src in node.xpath('//img/text()').extract()]
return sources
参考资料: