Web scraping 如何在使用HTML单元解析HTML之前清除HTML

Web scraping 如何在使用HTML单元解析HTML之前清除HTML,web-scraping,htmlunit,jtidy,Web Scraping,Htmlunit,Jtidy,我正在使用HtmlUnit刮取html,但是html格式不正确,几乎没有未关闭的标记,因此HtmlUnit给出了错误的结果。因此,我需要在将其传递给HtmlUnit之前清理它 我该怎么做呢 一个简短的代码片段或教程将不胜感激我相信您可以通过实现自己的代码片段或教程来实现这一点。然后,您必须找到一些HTML库来正确地解决这个问题(如果可能的话)。然后,您所要做的就是确保包装器将内容发送到库中,这样当它到达HTMLUnit的解析器时,HTML内容就已经被处理。Plz提供您的HTMLUnit代码

我正在使用HtmlUnit刮取
html
,但是
html
格式不正确,几乎没有未关闭的标记,因此HtmlUnit给出了错误的结果。因此,我需要在将其传递给HtmlUnit之前清理它

我该怎么做呢


一个简短的代码片段或教程将不胜感激

我相信您可以通过实现自己的代码片段或教程来实现这一点。然后,您必须找到一些HTML库来正确地解决这个问题(如果可能的话)。然后,您所要做的就是确保包装器将内容发送到库中,这样当它到达HTMLUnit的解析器时,HTML内容就已经被处理。

Plz提供您的HTMLUnit代码