Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/76.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用xpath和正则表达式获取单个链接上的文本_Python_Html_Regex_Web Scraping_Scrapy - Fatal编程技术网

Python 使用xpath和正则表达式获取单个链接上的文本

Python 使用xpath和正则表达式获取单个链接上的文本,python,html,regex,web-scraping,scrapy,Python,Html,Regex,Web Scraping,Scrapy,我在做一个无聊的项目,我们正在抓拍一个新闻网站。 有一个包含站点标签的div,它可能有多个链接。 例如: <div class="article__tags"> <a href="/example/ops.html"> OPS </a> <a href="/example/covid-19.html"> Covid-19 </a> <a href="/examp

我在做一个无聊的项目,我们正在抓拍一个新闻网站。 有一个包含站点标签的div,它可能有多个链接。 例如:

<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>
在上面的例子中,我得到了以下标签: 老年退休金 美国 冠状病毒 19 这是不正确的,因为新冠病毒和19是同一标签。 ?如何获得正确的链接文本


谢谢

我把它改成了

tags = html.xpath(
        '//div[@class="article__tags"]/a/text()').extract()
tags = html.xpath(
        '//div[@class="article__tags"]/a/text()').extract()