Java 用于在两个HTML标记之间查找所有可能的内容(包括外来字符)的正则表达式

Java 用于在两个HTML标记之间查找所有可能的内容(包括外来字符)的正则表达式,java,html,regex,Java,Html,Regex,我使用正则表达式来查找特定HTML标记之间的内容 但是,内容可能是外语,可以包含任何内容 我试图找出一个正则表达式,在这里我可以捕获标签之间的所有内容。我看过关于具体案例的文章和Q/A,但我不知道如何将它们放在一起,尤其是外国字符的要求 任何人都有任何解决方案/想法吗?应该抓住任何东西,不管它可能是什么。您可以使用以下模式匹配任何字符,但小于号除外:[^解决方案 警告 regex在解析HTML方面真的很糟糕。比如说,有一种情况是“你需要使用HTML解析器。你能提供一些你正在谈论的HTML或者到目

我使用正则表达式来查找特定HTML标记之间的内容

但是,内容可能是外语,可以包含任何内容

我试图找出一个正则表达式,在这里我可以捕获标签之间的所有内容。我看过关于具体案例的文章和Q/A,但我不知道如何将它们放在一起,尤其是外国字符的要求


任何人都有任何解决方案/想法吗?

应该抓住任何东西,不管它可能是什么。

您可以使用以下模式匹配任何字符,但小于号除外:[^解决方案

警告


regex在解析HTML方面真的很糟糕。比如说,有一种情况是“你需要使用HTML解析器。你能提供一些你正在谈论的HTML或者到目前为止你尝试过什么regex吗?看看你是否能找到一个好的xml解析器。这不是在标记内部而不是在标记之间匹配吗?是的,如果你是说打赌的话ween as in>sometext
>.*?<