你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗？_Html_Xml_Regex

你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗？

html xml regex

你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗？,html,xml,regex,Html,Xml,Regex,我看到人们犯了一个错误，就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因：人们希望将文件视为一系列行，但这是有效的： <tag attr="5" /> 人们想治疗实际上 <img src="imgtag.gif" alt="<img>" /> “/> 不是有效的HTML，也不是有效的XML 它不是有效的XML，因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和它也是无效的HTML，因为HTML中不允

我看到人们犯了一个错误，就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因：

人们希望将文件视为一系列行，但这是有效的：

<tag
attr="5"
/>

人们想治疗我就这个主题写了一篇完整的博客文章：

问题的关键是HTML和XML是递归结构，需要计数机制才能正确解析。真正的正则表达式不能计数。你必须有一个上下文无关的语法才能计数

上一段有一个小小的警告。某些正则表达式实现现在支持递归的思想。然而，一旦你开始在你的正则表达式中添加递归，你就在真正地扩展边界，并且应该考虑一个解析器。

人们通常默认编写贪婪模式，这常常导致了一个未经思考的问题。*将大量的文件大量地倾注到最大可能。*./P>

实际上

<img src="imgtag.gif" alt="<img>" />

“/>

不是有效的HTML，也不是有效的XML

它不是有效的XML，因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和

它也是无效的HTML，因为HTML中不允许使用短结束形式（但在XML和XHTML中是正确的）。根据HTML 4.01规范，“img”标记也是隐式结束的标记。这意味着手动关闭它实际上是错误的，相当于关闭任何其他标记两次

HTML的正确版本是

<img src="imgtag.gif" alt="&lt;img&gt;">

XHTML和XML中的正确版本是

<img src="imgtag.gif" alt="&lt;img&gt;"/>

您给出的以下示例也是无效的

<
tag
attr="5"
/>

<
标签
attr=“5”
/>

这也是无效的HTML或XML。标记的名称必须在“”后面，可能在它们想要的任何位置。因此，有效的XML实际上是

<tag
attr="5"
/>

还有一个更有趣的：你可以选择使用“或”作为你的属性引用字符

<img src="image.gif" alt='This is single quoted AND valid!'>

发布的所有其他原因都是正确的，但解析HTML的最大问题是人们通常无法正确理解所有语法规则。浏览器将tagsoup解释为HTML并不意味着您实际编写了有效的HTML

编辑：就连stackoverflow.com也同意我对有效和无效的定义。您的无效XML/HTML未突出显示，而我的更正版本为

基本上，XML不需要使用regexp进行解析。但也没有理由这样做。每种语言都有很多很多XML解析器。您可以在SAX解析器、DOM解析器和拉式解析器之间进行选择。所有这些都保证比使用regexp解析要快得多，然后您可以在生成的DOM树上使用XPath或XSLT等很酷的技术

因此，我的回答是：使用regexps解析XML不仅困难，而且也是一个坏主意。只需使用现有的数百万XML解析器中的一个，并利用XML的所有高级特性

HTML太难了，你甚至无法自己尝试解析。首先，法律语法有许多你可能不知道的细微之处，其次，野生的HTML只是一大堆臭烘烘的东西（你明白我的意思）。有各种各样的lax解析器库可以很好地处理像标记汤这样的HTML，只要使用它们就可以了。

人们使用正则表达式是否真的犯了错误，或者对于他们试图完成的任务来说，它是否足够好

我完全同意，像其他人回答的那样，使用正则表达式解析html和xml是不可能的

但是，如果您的要求不是解析html/xml，而是只获取html/xml“已知良好”部分中的一小部分数据，那么正则表达式甚至更简单的“子字符串”就足够了。

以下是一些有趣的有效xml：

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
    <a b="&y;>" />
    <![CDATA[[a>b <a>b <a]]>
    <?x <a> <!-- <b> ?> c --> d
</x>

]>

更不用说针对无效构造的所有特定于浏览器的解析了

祝你好运，让regex与之对抗

编辑（Jörg W Mittag）：下面是另一个格式良好、有效的HTML 4.01：

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
  "http://www.w3.org/TR/html4/strict.dtd"> 
<HTML/
  <HEAD/
    <TITLE/>/
    <P/>


您列表中没有的一个问题是属性可以以任何顺序出现，因此如果您的正则表达式正在查找带有href“foo”和类“bar”的链接，它们可以以任何顺序出现，并且它们之间可以有任何数量的其他内容。
我相信classic包含您要查找的信息。您可以在其中一条评论中找到要点：
我认为这里的缺陷在于HTML是一种乔姆斯基2型语法
（上下文无关语法）和正则表达式是Chomsky类型3语法（正则表达式）
表达式）因为类型2语法基本上比
类型3语法-你不可能指望它能起作用。但是很多
会尝试，有些人会声称成功，而另一些人会发现错误并
把你搞得一团糟
来自维基百科的更多信息：
我想说“不要再发明轮子”。除了XML是一种非常非常复杂的格式。所以也许我应该说“不要重新发明同步加速器。”
也许正确的陈词滥调始于“当你只有一把锤子……”你知道如何使用正则表达式，正则表达式擅长解析，那么为什么还要费心学习XML解析库呢
因为解析XML很难。您不必学习使用XML解析库所节省的任何精力都将由您必须进行的大量创造性工作和bug消除所弥补。为了您自己的利益，google“XML库”和levera
<tag
attr="5"
/>

<img src="image.gif" alt='This is single quoted AND valid!'>

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
    <a b="&y;>" />
    <![CDATA[[a>b <a>b <a]]>
    <?x <a> <!-- <b> ?> c --> d
</x>

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [
    <!ENTITY % e "href='hello'">
    <!ENTITY e "<a %e;>">
]>
    <title>x</TITLE>
</head>
    <p id  =  a:b center>
    <span / hello </span>
    &amp<br left>
    <!---- >t<!---> < -->
    &e link </a>
</body>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
  "http://www.w3.org/TR/html4/strict.dtd"> 
<HTML/
  <HEAD/
    <TITLE/>/
    <P/>