Java 清理HTML数据_Java_Javascript_Feed_Security

Java 清理HTML数据

java javascript security

Java 清理HTML数据,java,javascript,feed,security,Java,Javascript,Feed,Security,我从不同的RSS/ATOM提要获取数据，有时我收到的HTML数据包含HTML标记，但它们没有关闭标记或其他一些问题，这会破坏页面布局/样式有些东西存在类名/id冲突。有什么办法可以消毒吗如果有人能告诉我一些可靠的Javascript/Java实现。你可以试试 JTidy可以用作清理格式错误和错误HTML的工具另一个选择是在Web上发现的HTML通常是脏的、格式不正确的，不适合进一步处理。对于此类文档的任何严重消耗，必须首先清理混乱，并将顺序转换为标签、属性和普通文本。对于给定的HTML文

我从不同的RSS/ATOM提要获取数据，有时我收到的HTML数据包含HTML标记，但它们没有关闭标记或其他一些问题，这会破坏页面布局/样式

有些东西存在类名/id冲突。有什么办法可以消毒吗

如果有人能告诉我一些可靠的Javascript/Java实现。

你可以试试

JTidy可以用作清理格式错误和错误HTML的工具

另一个选择是

在Web上发现的HTML通常是脏的、格式不正确的，不适合进一步处理。对于此类文档的任何严重消耗，必须首先清理混乱，并将顺序转换为标签、属性和普通文本。对于给定的HTML文档，HtmlCleaner对各个元素重新排序，并生成格式良好的XML。默认情况下，它遵循大多数web浏览器用于创建文档对象模型的类似规则。但是，用户可以为标记过滤和平衡提供自定义标记和规则集

我已经成功地使用了NekoHTML。它只是Apache解析器上的一层薄薄的一层，将其置于纠错模式，这是一个伟大的体系结构，因为每当Apache变得更好时，Neko也是如此。而且没有太多额外的代码。

伙计们，这一个似乎仍在工作。如果您有任何其他建议，请告诉我。谢谢：）