Python 提取我的html行的标题

Python 提取我的html行的标题,python,regex,Python,Regex,我有一个关于提取html行标题的问题 假设我的路线是: <span class="title_name"> <a href="/?id=2124">Fairwood</a></span> 哈哈,我不得不添加一些额外的空格,让这行不显示为超链接 我将如何自动提取“Fairwood”,因为有许多行的格式类似,具有不同的id和标题 提前感谢解析器解决方案有什么问题 import xml.etree.ElementTree as ET root =

我有一个关于提取html行标题的问题

假设我的路线是:

<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>

哈哈,我不得不添加一些额外的空格,让这行不显示为超链接

我将如何自动提取“Fairwood”,因为有许多行的格式类似,具有不同的id和标题


提前感谢

解析器解决方案有什么问题

import xml.etree.ElementTree as ET
root = ET.fromstring('<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>')
print(root.find("a").text)
# Fairwood
将xml.etree.ElementTree作为ET导入
root=ET.fromstring(“”)
打印(root.find(“a”).text)
#费尔伍德

如果格式相似,则可以尝试:

import re 
html='''
<span class="title_name1"> <a href="/?id=2124">Fairwood1</a></span>
<span class="title_name2"> <a href="/?id=2125">Fairwood2</a></span>'''
print re.findall(r'\w+(?=</a></span>)',html,re.M)
重新导入
html=“”
'''
打印re.findall(r'\w+(?=)',html,re.M)

为什么投票被否决?一个小的注释可能会更有帮助。搜索字符串
href
,然后在遇到
后立即开始捕获,直到找到
为止。您可能想看看这篇文章:而且请永远不要使用正则表达式解析HTML。请参阅BeautifulSoup框架或类似的框架可能会有所帮助:Regex可能在简单的情况下工作,但可能存在风险:如果没有要匹配的锚,则不需要多行标志。