Python 3.x Python lxml Xpath导入问题-我需要删除附加到imoprted值的前导和尾随[';';]
我试图通过Python和lxml监控网页上的特定规范URL是否被更改 其思想是在Excel工作表中有一个包含正确规范URL的URL列表,该列表被导入Python中,然后根据实时站点定期检查(通过lxml和Xpath)。如果检测到更改,则标志设置为FALSE 问题是:当我通过lxml导入时,会导入额外的字符,这意味着我的真/假匹配永远不会起作用。e、 g lxml将创建Python 3.x Python lxml Xpath导入问题-我需要删除附加到imoprted值的前导和尾随[';';],python-3.x,pandas,list,lxml,Python 3.x,Pandas,List,Lxml,我试图通过Python和lxml监控网页上的特定规范URL是否被更改 其思想是在Excel工作表中有一个包含正确规范URL的URL列表,该列表被导入Python中,然后根据实时站点定期检查(通过lxml和Xpath)。如果检测到更改,则标志设置为FALSE 问题是:当我通过lxml导入时,会导入额外的字符,这意味着我的真/假匹配永远不会起作用。e、 g lxml将创建['https://www.example.com/canonical.html']而不是https://www.example.
['https://www.example.com/canonical.html']
而不是https://www.example.com/canonical.html
new_canonical=tree.xpath('//link[@rel=“canonical”]/@href')
我对python很在行,但我整天都在胡思乱想,甚至在excel工作表中的URL中添加额外的[''']字符(这样它们就匹配起来了,但这不起作用)
简而言之,我需要
new_canonical=tree.xpath('//link[@rel=“canonical”]/@href')
来生成而不是[''']xpath方法返回Python
您只需从列表中获取第一个元素
new_canonical = tree.xpath('//link[@rel="canonical"]/@href')
my_url = new_canonical[0]