用正则表达式(Java)替换html标记

用正则表达式(Java)替换html标记,java,regex,string,parsing,replaceall,Java,Regex,String,Parsing,Replaceall,假设您有一个包含html文件中文本的字符串,您可以: content = content.replaceAll("<[^>]*>", ""); 我知道这将基本上删除所有html标记。但是,如果我想保留如下所示的标签: <> or < (any type/amount of blank space here) > 是否可以修改replaceAll来实现这一点?如果是,怎么做?感谢您的任何意见/建议 content = content.r

假设您有一个包含html文件中文本的字符串,您可以:

    content = content.replaceAll("<[^>]*>", "");
我知道这将基本上删除所有html标记。但是,如果我想保留如下所示的标签:

    <> or < (any type/amount of blank space here) >
是否可以修改replaceAll来实现这一点?如果是,怎么做?感谢您的任何意见/建议

content = content.replaceAll("<[^>]*[^\\s>][^>]*>", "");
这应该与至少包含一个非空白字符的标记相匹配。