你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗?

你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗?,html,xml,regex,Html,Xml,Regex,我看到人们犯了一个错误,就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因: 人们希望将文件视为一系列行,但这是有效的: <tag attr="5" /> 人们想治疗实际上 <img src="imgtag.gif" alt="<img>" /> “/> 不是有效的HTML,也不是有效的XML 它不是有效的XML,因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和 它也是无效的HTML,因为HTML中不允

我看到人们犯了一个错误,就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因:

人们希望将文件视为一系列行,但这是有效的:

<tag
attr="5"
/>


人们想治疗我就这个主题写了一篇完整的博客文章:

问题的关键是HTML和XML是递归结构,需要计数机制才能正确解析。真正的正则表达式不能计数。你必须有一个上下文无关的语法才能计数


上一段有一个小小的警告。某些正则表达式实现现在支持递归的思想。然而,一旦你开始在你的正则表达式中添加递归,你就在真正地扩展边界,并且应该考虑一个解析器。

人们通常默认编写贪婪模式,这常常导致了一个未经思考的问题。*将大量的文件大量地倾注到最大可能。*./P>

实际上

<img src="imgtag.gif" alt="<img>" />
“/>
不是有效的HTML,也不是有效的XML

它不是有效的XML,因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和

它也是无效的HTML,因为HTML中不允许使用短结束形式(但在XML和XHTML中是正确的)。根据HTML 4.01规范,“img”标记也是隐式结束的标记。这意味着手动关闭它实际上是错误的,相当于关闭任何其他标记两次

HTML的正确版本是

<img src="imgtag.gif" alt="&lt;img&gt;">

XHTML和XML中的正确版本是

<img src="imgtag.gif" alt="&lt;img&gt;"/>

您给出的以下示例也是无效的

<
tag
attr="5"
/>
<
标签
attr=“5”
/>
这也是无效的HTML或XML。标记的名称必须在“”后面,可能在它们想要的任何位置。因此,有效的XML实际上是

<tag
attr="5"
/>

还有一个更有趣的:你可以选择使用“或”作为你的属性引用字符

<img src="image.gif" alt='This is single quoted AND valid!'>

发布的所有其他原因都是正确的,但解析HTML的最大问题是人们通常无法正确理解所有语法规则。浏览器将tagsoup解释为HTML并不意味着您实际编写了有效的HTML

编辑:就连stackoverflow.com也同意我对有效和无效的定义。您的无效XML/HTML未突出显示,而我的更正版本为

基本上,XML不需要使用regexp进行解析。但也没有理由这样做。每种语言都有很多很多XML解析器。您可以在SAX解析器、DOM解析器和拉式解析器之间进行选择。所有这些都保证比使用regexp解析要快得多,然后您可以在生成的DOM树上使用XPath或XSLT等很酷的技术

因此,我的回答是:使用regexps解析XML不仅困难,而且也是一个坏主意。只需使用现有的数百万XML解析器中的一个,并利用XML的所有高级特性


HTML太难了,你甚至无法自己尝试解析。首先,法律语法有许多你可能不知道的细微之处,其次,野生的HTML只是一大堆臭烘烘的东西(你明白我的意思)。有各种各样的lax解析器库可以很好地处理像标记汤这样的HTML,只要使用它们就可以了。

人们使用正则表达式是否真的犯了错误,或者对于他们试图完成的任务来说,它是否足够好

我完全同意,像其他人回答的那样,使用正则表达式解析html和xml是不可能的


但是,如果您的要求不是解析html/xml,而是只获取html/xml“已知良好”部分中的一小部分数据,那么正则表达式甚至更简单的“子字符串”就足够了。

以下是一些有趣的有效xml:

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
    <a b="&y;>" />
    <![CDATA[[a>b <a>b <a]]>
    <?x <a> <!-- <b> ?> c --> d
</x>
]>
更不用说针对无效构造的所有特定于浏览器的解析了

祝你好运,让regex与之对抗

编辑(Jörg W Mittag):下面是另一个格式良好、有效的HTML 4.01:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
  "http://www.w3.org/TR/html4/strict.dtd"> 
<HTML/
  <HEAD/
    <TITLE/>/
    <P/>


您列表中没有的一个问题是属性可以以任何顺序出现,因此如果您的正则表达式正在查找带有href“foo”和类“bar”的链接,它们可以以任何顺序出现,并且它们之间可以有任何数量的其他内容。

我相信classic包含您要查找的信息。您可以在其中一条评论中找到要点:

我认为这里的缺陷在于HTML是一种乔姆斯基2型语法 (上下文无关语法)和正则表达式是Chomsky类型3语法(正则表达式) 表达式)因为类型2语法基本上比 类型3语法-你不可能指望它能起作用。但是很多 会尝试,有些人会声称成功,而另一些人会发现错误并 把你搞得一团糟

来自维基百科的更多信息:

我想说“不要再发明轮子”。除了XML是一种非常非常复杂的格式。所以也许我应该说“不要重新发明同步加速器。”

也许正确的陈词滥调始于“当你只有一把锤子……”你知道如何使用正则表达式,正则表达式擅长解析,那么为什么还要费心学习XML解析库呢

因为解析XML很难。您不必学习使用XML解析库所节省的任何精力都将由您必须进行的大量创造性工作和bug消除所弥补。为了您自己的利益,google“XML库”和levera
<tag
attr="5"
/>
<img src="image.gif" alt='This is single quoted AND valid!'>
<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
    <a b="&y;>" />
    <![CDATA[[a>b <a>b <a]]>
    <?x <a> <!-- <b> ?> c --> d
</x>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [
    <!ENTITY % e "href='hello'">
    <!ENTITY e "<a %e;>">
]>
    <title>x</TITLE>
</head>
    <p id  =  a:b center>
    <span / hello </span>
    &amp<br left>
    <!---- >t<!---> < -->
    &e link </a>
</body>
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
  "http://www.w3.org/TR/html4/strict.dtd"> 
<HTML/
  <HEAD/
    <TITLE/>/
    <P/>