使用正则表达式和python替换HTML标记
我有一个Python脚本,它将查看具有以下格式的HTML文件:使用正则表达式和python替换HTML标记,python,html,regex,tags,Python,Html,Regex,Tags,我有一个Python脚本,它将查看具有以下格式的HTML文件: <DOC> <HTML> ... </HTML> </DOC> <DOC> <HTML> ... </HTML> </DOC> ... ... 除了在Python中使用正则表达式打开和关闭文档标记外,如何删除所有HTML标记(用“”替换标记)?另外,如果我想保留标记的alt文本,正则表达式应该是什么样子?搜索并替换为这个正则表达式:
<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>
...
...
除了在Python中使用正则表达式打开和关闭文档标记外,如何删除所有HTML标记(用“”替换标记)?另外,如果我想保留标记的alt文本,正则表达式应该是什么样子?搜索并替换为这个正则表达式:搜索:替换为:“搜索并替换为这个正则表达式:搜索:替换为:”签出,这是一个处理xml的非常好的python库。您可以使用drop_标记来完成所需的内容 from lxml import html h = html.fragment_fromstring('<doc>Hello <b>World!</b></doc>') h.find('*').drop_tag() print(html.tostring(h, encoding=unicode)) <doc>Hello World!</doc> 从lxml导入html h=html.fragment\u fromstring('helloworld!') h、 查找('*')。删除标签() 打印(html.tostring(h,编码=unicode)) 你好,世界! 看看,这是一个处理xml的非常好的python库。您可以使用drop_标记来完成所需的内容 from lxml import html h = html.fragment_fromstring('<doc>Hello <b>World!</b></doc>') h.find('*').drop_tag() print(html.tostring(h, encoding=unicode)) <doc>Hello World!</doc> 从lxml导入html h=html.fragment\u fromstring('helloworld!') h、 查找('*')。删除标签() 打印(html.tostring(h,编码=unicode)) 你好,世界!
对于您试图实现的目标,我将使用BeautifulSoup而不是正则表达式
对于您想要实现的目标,我将使用BeautifulSoup而不是正则表达式
您应该使用DOM解析器,而不是正则表达式。请参阅,您可以更具体地说明要删除的内容吗?我想删除除和标记以外的所有标记。“html”是一个假设的元素名称,而不是真正的“html”吗?您应该使用DOM解析器,而不是正则表达式。请参阅,您可以更具体地说明要删除的内容吗?我要删除除和标记之外的所有标记。“html”是一个假设的元素名称,而不是真正的“html”吗?