Python正则表达式：修复一个html关闭标记没有，但有（）的随机内容_Python_Regex

Python正则表达式：修复一个html关闭标记没有，但有（）的随机内容

python regex

Python正则表达式：修复一个html关闭标记没有，但有（）的随机内容,python,regex,Python,Regex,只需要修复结束div标记所以它看起来像是随机内容我需要用正则表达式在Python中实现它输入与第一行完全相同，在随机内容中没有任何。我不建议使用regex-use类似的东西（这是一个Python包装）。我不建议使用regex-use类似的东西（这是一个Python包装）。避免使用正则表达式处理HTML 以下是在DOM树中解析它的方式： <div>random contents without < or > , but has ( ) <div> >>

只需要修复结束div标记

所以它看起来像是

随机内容

我需要用正则表达式在Python中实现它

输入与第一行完全相同，在随机内容中没有任何。

我不建议使用regex-use类似的东西（这是一个Python包装）。

避免使用正则表达式处理HTML

以下是在DOM树中解析它的方式：

<div>random contents without < or > , but has ( )  <div>

>>从BeautifulSoup导入BeautifulSoup
>>>美化组（“随机内容”）
随机内容

或者您想将第二个

转换为

（浏览器肯定不会这样做）

避免使用正则表达式处理HTML

以下是在DOM树中解析它的方式：

<div>random contents without < or > , but has ( )  <div>

>>从BeautifulSoup导入BeautifulSoup
>>>美化组（“随机内容”）
随机内容

或者您想将第二个

转换为

（浏览器肯定不会这样做）？

替换

>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup('<div>random contents<div>')
<div>random contents<div></div></div>

注意：这是不好的做法，除非绝对必要，否则不要这样做

更换

>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup('<div>random contents<div>')
<div>random contents<div></div></div>

注意：这是不好的做法，除非绝对必要，否则不要这样做

呃。。。你为什么要这么做？为什么要使用正则表达式呢？随机内容怎么样？什么？您的典型输入是什么样子的？嵌套div呢？它们很常见。。。如果你知道它有“HTMLClose标签”，这应该很简单。如果没有更多的信息（可以有嵌套的div，是否在字符串的末尾，诸如此类的事情），就不可能正确回答。我们需要数据。更新：输入与EFSDFSDF完全相同，不涉及其他标记。谢谢犯错误你为什么要这么做？为什么要使用正则表达式呢？随机内容怎么样？什么？您的典型输入是什么样子的？嵌套div呢？它们很常见。。。如果你知道它有“HTMLClose标签”，这应该很简单。如果没有更多的信息（可以有嵌套的div，是否在字符串的末尾，诸如此类的事情），就不可能正确回答。我们需要数据。更新：输入与EFSDFSDF完全相同，不涉及其他标记。谢谢我正在使用python 2.6。因此，BeautifulSoup不可用，但感谢您的回答。@user469652:BeautifulSoup始终是您需要安装的额外组件。它在处理HTML时也总是很有用的，我使用的是Python2.6。因此，BeautifulSoup不可用，但感谢您的回答。@user469652:BeautifulSoup始终是您需要安装的额外组件。它在处理HTML时也总是有用的。需要包括第三方库，这在我的情况下不是很好。@user469652:问题是，几乎任何需要帮助处理HTML正则表达式的人都没有足够的能力，没有足够的专业知识，没有足够的正则表达式向导，没有希望做好它。我们这些人不会问这样的问题。这是第二十二条军规的问题之一。对于99.98%的程序员来说，在非常有限的环境下试图节省开支实在是太难了。即使在那里，他们通常也会大发雷霆，来这里寻求帮助。这将是数年前，如果你能管理这个，它永远不会有趣。理解，非常感谢，我会考虑在我的项目中包括一个高效的HTML处理库。@ TChestin，作为对你的评论的回应：HTML不能被正则表达式解析！说真的，它不能。HTML允许任意级别的嵌套。正则表达式没有。QED。小马托尼，他来了@用完整的语法编写递归正则表达式是很简单的。所以你错了。QED。如果我曾经看到那个愚蠢的帖子被作为答案提供，我每次都会投反对票，这是它应得的。你不知道你在说什么。需要包括一个第三方库，这在我的情况下不是很好。@user469652:问题是，几乎任何需要帮助使用HTML正则表达式的人都没有足够的能力，没有足够的专业知识，没有足够的正则表达式魔法，没有希望在这方面做得很好。我们这些人不会问这样的问题。这是第二十二条军规的问题之一。对于99.98%的程序员来说，在非常有限的环境下试图节省开支实在是太难了。即使在那里，他们通常也会大发雷霆，来这里寻求帮助。这将是数年前，如果你能管理这个，它永远不会有趣。理解，非常感谢，我会考虑在我的项目中包括一个高效的HTML处理库。@ TChestin，作为对你的评论的回应：HTML不能被正则表达式解析！说真的，它不能。HTML允许任意级别的嵌套。正则表达式没有。QED。小马托尼，他来了@用完整的语法编写递归正则表达式是很简单的。所以你错了。QED。如果我曾经看到那个愚蠢的帖子被作为答案提供，我每次都会投反对票，这是它应得的。你不知道你在说什么。