Python-调试标记中的HTML标记

Python-调试标记中的HTML标记,python,html,Python,Html,我使用streamlight高亮显示文本中的不同关键字,因此我用 关键字,但由于有些关键字是短语,因此我在中有一些带有的文本,如 敏捷的棕色狐狸跳过了懒狗 这将导致解析此字符串中的标记或HTML时出错: 我正在考虑定义一个函数来传递字符串,并在任何情况下删除内部跨度 def html_debugger(text): magic return text 它将返回敏捷的棕色狐狸跳过懒惰的狗 但是我不知道该如何看待这个函数 首先,对于标准库,它应该与任何类型的标记一起使用,而不仅仅是

我使用streamlight高亮显示文本中的不同关键字,因此我用
关键字
,但由于有些关键字是短语,因此我在
中有一些带有
的文本,如

敏捷的棕色狐狸跳过了懒狗

这将导致解析此字符串中的标记或HTML时出错:

我正在考虑定义一个函数来传递字符串,并在任何情况下删除内部跨度

def html_debugger(text):
    magic
    return text
它将返回
敏捷的棕色狐狸跳过懒惰的狗
但是我不知道该如何看待这个函数

首先,对于标准库,它应该与任何类型的标记一起使用,而不仅仅是
span

重新导入
html=“”敏捷的棕色狐狸跳过了懒狗“”
def html_调试器(文本):
tag_pattern=r']*>'
tags=re.findall(标记模式,文本)
内部文本=re.sub(标记模式,文本)
返回标记[0]+内部文本+标记[-1]
html_调试器(html)
#“敏捷的棕色狐狸跳过了懒狗”
其次是:

从bs4导入美化组
html=“”敏捷的棕色狐狸跳过了懒狗“”
def html_调试器(文本):
bs_span=BeautifulSoup(文本)
span=s.find_all('span')[0]
span_text=span.text
span_style=span.attrs['style']
返回f'{span_text}'
html_调试器(html)
#“敏捷的棕色狐狸跳过了懒狗”

第二个非常聪明,我没有澄清我通常有大的文本,在文本上有几个,但不是所有的文本都在彼此之间。有了您的解决方案,我想我可以提供一些解决问题的方法:)。我正在考虑通过它们循环检查它们是否包含