Java 清理HTML数据

Java 清理HTML数据,java,javascript,feed,security,Java,Javascript,Feed,Security,我从不同的RSS/ATOM提要获取数据,有时我收到的HTML数据包含HTML标记,但它们没有关闭标记或其他一些问题,这会破坏页面布局/样式 有些东西存在类名/id冲突。有什么办法可以消毒吗 如果有人能告诉我一些可靠的Javascript/Java实现。你可以试试 JTidy可以用作清理格式错误和错误HTML的工具 另一个选择是 在Web上发现的HTML通常是脏的、格式不正确的,不适合进一步处理。对于此类文档的任何严重消耗,必须首先清理混乱,并将顺序转换为标签、属性和普通文本。对于给定的HTML文

我从不同的RSS/ATOM提要获取数据,有时我收到的HTML数据包含HTML标记,但它们没有关闭标记或其他一些问题,这会破坏页面布局/样式

有些东西存在类名/id冲突。有什么办法可以消毒吗

如果有人能告诉我一些可靠的Javascript/Java实现。

你可以试试

JTidy可以用作清理格式错误和错误HTML的工具

另一个选择是

在Web上发现的HTML通常是脏的、格式不正确的,不适合进一步处理。对于此类文档的任何严重消耗,必须首先清理混乱,并将顺序转换为标签、属性和普通文本。对于给定的HTML文档,HtmlCleaner对各个元素重新排序,并生成格式良好的XML。默认情况下,它遵循大多数web浏览器用于创建文档对象模型的类似规则。但是,用户可以为标记过滤和平衡提供自定义标记和规则集


我已经成功地使用了NekoHTML。它只是Apache解析器上的一层薄薄的一层,将其置于纠错模式,这是一个伟大的体系结构,因为每当Apache变得更好时,Neko也是如此。而且没有太多额外的代码。

伙计们,这一个似乎仍在工作。如果您有任何其他建议,请告诉我。谢谢:)