Python 使用xpath和正则表达式获取单个链接上的文本_Python_Html_Regex_Web Scraping_Scrapy

Python 使用xpath和正则表达式获取单个链接上的文本

python html regex web-scraping scrapy

Python 使用xpath和正则表达式获取单个链接上的文本,python,html,regex,web-scraping,scrapy,Python,Html,Regex,Web Scraping,Scrapy,我在做一个无聊的项目，我们正在抓拍一个新闻网站。有一个包含站点标签的div，它可能有多个链接。例如： <div class="article__tags"> <a href="/example/ops.html"> OPS </a> <a href="/example/covid-19.html"> Covid-19 </a> <a href="/examp

我在做一个无聊的项目，我们正在抓拍一个新闻网站。有一个包含站点标签的div，它可能有多个链接。例如：

<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>

在上面的例子中，我得到了以下标签：老年退休金美国冠状病毒 19 这是不正确的，因为新冠病毒和19是同一标签。？如何获得正确的链接文本

谢谢

我把它改成了

tags = html.xpath(
        '//div[@class="article__tags"]/a/text()').extract()

tags = html.xpath(
        '//div[@class="article__tags"]/a/text()').extract()