Python 提取我的html行的标题_Python_Regex

Python 提取我的html行的标题

python regex

Python 提取我的html行的标题,python,regex,Python,Regex,我有一个关于提取html行标题的问题假设我的路线是： <span class="title_name"> <a href="/?id=2124">Fairwood</a></span> 哈哈，我不得不添加一些额外的空格，让这行不显示为超链接我将如何自动提取“Fairwood”，因为有许多行的格式类似，具有不同的id和标题提前感谢解析器解决方案有什么问题 import xml.etree.ElementTree as ET root =

我有一个关于提取html行标题的问题

假设我的路线是：

<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>

哈哈，我不得不添加一些额外的空格，让这行不显示为超链接

我将如何自动提取“Fairwood”，因为有许多行的格式类似，具有不同的id和标题

提前感谢

解析器解决方案有什么问题

import xml.etree.ElementTree as ET
root = ET.fromstring('<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>')
print(root.find("a").text)
# Fairwood

将xml.etree.ElementTree作为ET导入
root=ET.fromstring（“”）
打印（root.find（“a”）.text）
#费尔伍德

如果格式相似，则可以尝试：

import re 
html='''
<span class="title_name1"> <a href="/?id=2124">Fairwood1</a></span>
<span class="title_name2"> <a href="/?id=2125">Fairwood2</a></span>'''
print re.findall(r'\w+(?=</a></span>)',html,re.M)

重新导入
html=“”
'''
打印re.findall（r'\w+（？=）'，html，re.M）

为什么投票被否决？一个小的注释可能会更有帮助。搜索字符串

href

，然后在遇到

后立即开始捕获，直到找到

为止。您可能想看看这篇文章：而且请永远不要使用正则表达式解析HTML。请参阅BeautifulSoup框架或类似的框架可能会有所帮助：Regex可能在简单的情况下工作，但可能存在风险：如果没有要匹配的锚，则不需要多行标志。