Python 使用xpath和正则表达式获取单个链接上的文本
我在做一个无聊的项目,我们正在抓拍一个新闻网站。 有一个包含站点标签的div,它可能有多个链接。 例如:Python 使用xpath和正则表达式获取单个链接上的文本,python,html,regex,web-scraping,scrapy,Python,Html,Regex,Web Scraping,Scrapy,我在做一个无聊的项目,我们正在抓拍一个新闻网站。 有一个包含站点标签的div,它可能有多个链接。 例如: <div class="article__tags"> <a href="/example/ops.html"> OPS </a> <a href="/example/covid-19.html"> Covid-19 </a> <a href="/examp
<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>
在上面的例子中,我得到了以下标签:
老年退休金
美国
冠状病毒
19
这是不正确的,因为新冠病毒和19是同一标签。
?如何获得正确的链接文本
谢谢我把它改成了
tags = html.xpath(
'//div[@class="article__tags"]/a/text()').extract()
tags = html.xpath(
'//div[@class="article__tags"]/a/text()').extract()