Java 正则表达式以匹配<;之间的文本;a..>;及</a>;

Java 正则表达式以匹配<;之间的文本;a..>;及</a>;,java,regex,string,Java,Regex,String,任何人都能给出一个规则的表达式来匹配-15条评论-6条评论之间的链接文本吗 要求:我只需要提取链接文本(即和-链接标题和其他一些标题之间的文本)以在我的应用程序中使用 请注意,链接文本可能包含非英语字符和所有可能的提示。我尝试使用“.”运算符,但由于它进行贪婪匹配,因此它匹配第一个和最后一个之间的整个文本。但我只想要链接文本 有什么帮助吗?试试看 <a[^>]+>(.*?)</a> ]+>(*?) 停止使用正则表达式“解析”html 使用真正的解析器 这已经在

任何人都能给出一个规则的表达式来匹配
-15条评论
-6条评论之间的链接文本吗

要求:我只需要提取链接文本(即
-链接标题和其他一些标题之间的文本)以在我的应用程序中使用

请注意,链接文本可能包含非英语字符和所有可能的提示。我尝试使用“.”运算符,但由于它进行贪婪匹配,因此它匹配第一个
和最后一个
之间的整个文本。但我只想要链接文本

有什么帮助吗?

试试看

<a[^>]+>(.*?)</a>
]+>(*?)

停止使用正则表达式“解析”html

使用真正的解析器


这已经在StackOverflow上讨论了几十次(在其他论坛上也讨论了数千次),但显然它仍然需要重复:这是不可能的

正则表达式只能解析正则语言。HTML不是一种常规语言。证明你不能用正则表达式解析HTML是地球上几乎每一所学院和大学的常规(双关语)作业。成千上万的人已经证明了这一点。它就像任何数学证明一样无懈可击。这是一个非常简短、非常简单、非常容易理解的证明。任何人都不可能在其中发现隐藏的缺陷,因为证据如此简单和小,显然没有任何缺陷可以隐藏

哦,我有没有提到这是不可能的

这不是旅行推销员的问题,它需要很长时间才能运行。它不是P=NP,我们不知道它是否正确

这是真正的,绝对的,100%,肯定的,完全的,可以证明是不可能的


我忘了。我是否已经提到了它不可能做到我用爱来表达这一点。我用传统的方式(子字符串、indexOf等)编写了自己的解析逻辑,但这是使用正则表达式的要求(使用正则表达式的要求?好的。上面的链接有很多优秀的解析器,请不要编写自己的,下面是从其中大约4个锚标记中解析URL的示例代码:
是的,对,但即使解析器也可以使用特制的无效html来破解。但这不是无效html。它完全有效。