Php 删除除指定标签外的所有空标签
以下PHP正则表达式将删除所有空标记:Php 删除除指定标签外的所有空标签,php,regex,html-parsing,regex-negation,Php,Regex,Html Parsing,Regex Negation,以下PHP正则表达式将删除所有空标记: #]*>([\s]?)*]*>#u 我要删除不匹配的空标记: 我试过: #^()]*>([\s]?)*]*>#u …但它不起作用 如何添加否定?假设它是格式正确的,并且没有丢失的结束标记,这应该可以做到: <(?!div\s+style=(?:"[^"]*?\bclear:\s*both\b[^"]*"|'[^']*?\bclear:\s*both\b[^']*')\s*>\s*</div>).*?>\s*</.
#]*>([\s]?)*]*>#u
我要删除不匹配的空标记:
我试过:
#^()]*>([\s]?)*]*>#u
…但它不起作用
如何添加否定?假设它是格式正确的,并且没有丢失的结束标记,这应该可以做到:
<(?!div\s+style=(?:"[^"]*?\bclear:\s*both\b[^"]*"|'[^']*?\bclear:\s*both\b[^']*')\s*>\s*</div>).*?>\s*</.*?>
\s*)。?>\s*
确保也使用不区分大小写标志。不过,我还是建议不要这样做
编辑:我还没有测试我的编辑,但我相当确信它更彻底。假设它是格式良好的,并且没有缺少结束标记,这应该可以做到:
<(?!div\s+style=(?:"[^"]*?\bclear:\s*both\b[^"]*"|'[^']*?\bclear:\s*both\b[^']*')\s*>\s*</div>).*?>\s*</.*?>
\s*)。?>\s*
确保也使用不区分大小写标志。不过,我还是建议不要这样做
编辑:我还没有测试我的编辑,但我相当确信它更彻底。一个人不能简单地用正则表达式解析/处理HTML。你把
^
弄糊涂了。它意味着主题或行的开始。您需要一个断言(?!…)
。HTML不是一种常规语言。在某些情况下,允许缺少结束标记。换句话说,即使HTML文档缺少特定的结束标记,也可以认为它格式良好。这使得搜索空标记变得更加困难。@TylerCrompton我的html是由php脚本生成的,所以在我的情况下使用正则表达式非常好。请查看下面我对dom html解析器的评论。@PeeHaa你说得对:这显然是为了好玩。我不知道在给定内置dom处理器的情况下,我是否会实际使用正则表达式。我只知道我一直在vi
中编辑HTML文件,当我编辑HTML文件时,我从不回避使用s/foo/bar/
类型替换。我认为这里的人经常在每次解决方案中过度设计一些works everywhere,而不是只做处理当前任务和回家所需的工作。人们不简单地用正则表达式解析/处理HTML。你把^
弄糊涂了。它意味着主题或行的开始。您需要一个断言(?!…)
。HTML不是一种常规语言。在某些情况下,允许缺少结束标记。换句话说,即使HTML文档缺少特定的结束标记,也可以认为它格式良好。这使得搜索空标记变得更加困难。@TylerCrompton我的html是由php脚本生成的,所以在我的情况下使用正则表达式非常好。请查看下面我对dom html解析器的评论。@PeeHaa你说得对:这显然是为了好玩。我不知道在给定内置dom处理器的情况下,我是否会实际使用正则表达式。我只知道我一直在vi
中编辑HTML文件,当我编辑HTML文件时,我从不回避使用s/foo/bar/
类型替换。我认为这里的人经常在每次解决方案中都过度设计一些“无处不在”的工作,而不是仅仅做一些事情来完成当前任务并回家。我如何将它与我的正则表达式结合起来?@jason,你介意提供一些例子来说明它应该匹配什么和不应该匹配什么吗?除了匹配大多数空标记之外,我不确定你到底在做什么。太复杂了,那就是你不使用regexh解析html我该如何将它与我的regex结合起来?@jason,你介意提供一个列表,列出几个它应该匹配和不应该匹配的示例吗?除了匹配大多数空标记之外,我不确定你到底在做什么。太复杂了,你不能用正则表达式解析html