Java HtmlCleaner如何处理网页中的iFrame

Java HtmlCleaner如何处理网页中的iFrame,java,htmlcleaner,Java,Htmlcleaner,我想了解HtmlCleaner在清理原始html以生成有效的xml输出时如何处理iFrame。带有iFrame的页面的一个示例是 当我为这个页面打印HtmlCleaner的输出时,我发现一些iframe标记是完整的,而另一些则丢失了。缺少的iframe之一是id=“d”的iframe。它包含产品说明,其正文已合并到主页中 html cleaner的XML输出: 任何人都可以看看它,或者建议一些更好的HTML解析库,它能够优雅地处理iFrame。该库应该能够支持XPath计算

我想了解HtmlCleaner在清理原始html以生成有效的xml输出时如何处理iFrame。带有iFrame的页面的一个示例是

当我为这个页面打印HtmlCleaner的输出时,我发现一些iframe标记是完整的,而另一些则丢失了。缺少的iframe之一是id=“d”的iframe。它包含产品说明,其正文已合并到主页中

html cleaner的XML输出:

任何人都可以看看它,或者建议一些更好的HTML解析库,它能够优雅地处理iFrame。该库应该能够支持XPath计算