Java库,用于像浏览器一样清理HTML
这就是挑战。。。我需要从野外的随机网页中创建干净的HTML。我的目标是读入一个页面并将其传递给一个库,该库将反过来返回格式完美的HTML 听起来没那么难吧?毕竟,市场上的每一款浏览器都有效地应对了格式错误的HTML的挑战,并将其转化为几乎每一次页面加载都可以呈现的内容。每种方法都有自己的清理内容的算法(嗯……对于HTML<5),但它们往往能很好地捕捉到我所说的作者的意图。那么,为什么我不能为这项任务找到一个好的java库呢 要提到的一点是,我对将HTML解析为XML一点也不感兴趣。我发现NekoHTML、TagSoup、HtmlCleaner和JTidy(仅举几例)等库更专注于解决将HTML转换为有效XML的问题,在这一过程中,它们忽略了格式不良的文档应该如何重新构造。对于令人讨厌的HTML,它们通常无法捕捉作者的意图,并且会吐出呈现方式与原始源完全不同的文档。对于这个项目来说,这两个文件的相似性至关重要 我很喜欢Jericho HTML,但它似乎不是这份工作的理想人选……至少我需要付出很多努力。而且,本机依赖项是不可能的,因此mozilla解析器已经过时了 有人能帮我寻找完美的HTML解析器吗?提前谢谢 我会说 另请参见Java库,用于像浏览器一样清理HTML,java,html,html-parsing,Java,Html,Html Parsing,这就是挑战。。。我需要从野外的随机网页中创建干净的HTML。我的目标是读入一个页面并将其传递给一个库,该库将反过来返回格式完美的HTML 听起来没那么难吧?毕竟,市场上的每一款浏览器都有效地应对了格式错误的HTML的挑战,并将其转化为几乎每一次页面加载都可以呈现的内容。每种方法都有自己的清理内容的算法(嗯……对于HTMLXML),最终使用了NekoHTML(现在也有点死了)。