你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗?
我看到人们犯了一个错误,就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因: 人们希望将文件视为一系列行,但这是有效的:你能举一些例子说明为什么用正则表达式解析XML和HTML很困难吗?,html,xml,regex,Html,Xml,Regex,我看到人们犯了一个错误,就是试图用正则表达式解析XML或HTML。以下是解析XML和HTML很困难的几个原因: 人们希望将文件视为一系列行,但这是有效的: <tag attr="5" /> 人们想治疗实际上 <img src="imgtag.gif" alt="<img>" /> “/> 不是有效的HTML,也不是有效的XML 它不是有效的XML,因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和 它也是无效的HTML,因为HTML中不允
<tag
attr="5"
/>
人们想治疗
上一段有一个小小的警告。某些正则表达式实现现在支持递归的思想。然而,一旦你开始在你的正则表达式中添加递归,你就在真正地扩展边界,并且应该考虑一个解析器。
人们通常默认编写贪婪模式,这常常导致了一个未经思考的问题。*将大量的文件大量地倾注到最大可能。*./P>
实际上
<img src="imgtag.gif" alt="<img>" />
“/>
不是有效的HTML,也不是有效的XML
它不是有效的XML,因为“”不是属性字符串中的有效字符。需要使用相应的XML实体和
它也是无效的HTML,因为HTML中不允许使用短结束形式(但在XML和XHTML中是正确的)。根据HTML 4.01规范,“img”标记也是隐式结束的标记。这意味着手动关闭它实际上是错误的,相当于关闭任何其他标记两次
HTML的正确版本是
<img src="imgtag.gif" alt="<img>">
XHTML和XML中的正确版本是
<img src="imgtag.gif" alt="<img>"/>
您给出的以下示例也是无效的
<
tag
attr="5"
/>
<
标签
attr=“5”
/>
这也是无效的HTML或XML。标记的名称必须在“”后面,可能在它们想要的任何位置。因此,有效的XML实际上是
<tag
attr="5"
/>
还有一个更有趣的:你可以选择使用“或”作为你的属性引用字符
<img src="image.gif" alt='This is single quoted AND valid!'>
发布的所有其他原因都是正确的,但解析HTML的最大问题是人们通常无法正确理解所有语法规则。浏览器将tagsoup解释为HTML并不意味着您实际编写了有效的HTML
编辑:就连stackoverflow.com也同意我对有效和无效的定义。您的无效XML/HTML未突出显示,而我的更正版本为
基本上,XML不需要使用regexp进行解析。但也没有理由这样做。每种语言都有很多很多XML解析器。您可以在SAX解析器、DOM解析器和拉式解析器之间进行选择。所有这些都保证比使用regexp解析要快得多,然后您可以在生成的DOM树上使用XPath或XSLT等很酷的技术
因此,我的回答是:使用regexps解析XML不仅困难,而且也是一个坏主意。只需使用现有的数百万XML解析器中的一个,并利用XML的所有高级特性
HTML太难了,你甚至无法自己尝试解析。首先,法律语法有许多你可能不知道的细微之处,其次,野生的HTML只是一大堆臭烘烘的东西(你明白我的意思)。有各种各样的lax解析器库可以很好地处理像标记汤这样的HTML,只要使用它们就可以了。人们使用正则表达式是否真的犯了错误,或者对于他们试图完成的任务来说,它是否足够好 我完全同意,像其他人回答的那样,使用正则表达式解析html和xml是不可能的
但是,如果您的要求不是解析html/xml,而是只获取html/xml“已知良好”部分中的一小部分数据,那么正则表达式甚至更简单的“子字符串”就足够了。以下是一些有趣的有效xml:
<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
<a b="&y;>" />
<![CDATA[[a>b <a>b <a]]>
<?x <a> <!-- <b> ?> c --> d
</x>
]>
更不用说针对无效构造的所有特定于浏览器的解析了
祝你好运,让regex与之对抗
编辑(Jörg W Mittag):下面是另一个格式良好、有效的HTML 4.01:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<HTML/
<HEAD/
<TITLE/>/
<P/>
您列表中没有的一个问题是属性可以以任何顺序出现,因此如果您的正则表达式正在查找带有href“foo”和类“bar”的链接,它们可以以任何顺序出现,并且它们之间可以有任何数量的其他内容。我相信classic包含您要查找的信息。您可以在其中一条评论中找到要点:
我认为这里的缺陷在于HTML是一种乔姆斯基2型语法
(上下文无关语法)和正则表达式是Chomsky类型3语法(正则表达式)
表达式)因为类型2语法基本上比
类型3语法-你不可能指望它能起作用。但是很多
会尝试,有些人会声称成功,而另一些人会发现错误并
把你搞得一团糟
来自维基百科的更多信息:我想说“不要再发明轮子”。除了XML是一种非常非常复杂的格式。所以也许我应该说“不要重新发明同步加速器。”
也许正确的陈词滥调始于“当你只有一把锤子……”你知道如何使用正则表达式,正则表达式擅长解析,那么为什么还要费心学习XML解析库呢
因为解析XML很难。您不必学习使用XML解析库所节省的任何精力都将由您必须进行的大量创造性工作和bug消除所弥补。为了您自己的利益,google“XML库”和levera
<tag
attr="5"
/>
<img src="image.gif" alt='This is single quoted AND valid!'>
<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
<a b="&y;>" />
<![CDATA[[a>b <a>b <a]]>
<?x <a> <!-- <b> ?> c --> d
</x>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [
<!ENTITY % e "href='hello'">
<!ENTITY e "<a %e;>">
]>
<title>x</TITLE>
</head>
<p id = a:b center>
<span / hello </span>
&<br left>
<!---- >t<!---> < -->
&e link </a>
</body>
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<HTML/
<HEAD/
<TITLE/>/
<P/>