从网页中提取内容并使用Java进行比较

从网页中提取内容并使用Java进行比较,java,javascript,Java,Javascript,我正在开发一个Java项目,其中有一个子模块,我需要从一个网页中提取内容[文本、图像、颜色],并将其与另一个网页进行比较。我计划使用WinHTTrack软件在本地下载网页,但问题是它没有将其保存为HTML。如何使用WinHTTrack之类的软件下载具有HTML扩展名的网页[或者仅通过ctrl+s保存网页是不够的。]。我还计划在本地下载网页后,使用HTML解析器提取3种内容类型[文本、图像、颜色]。那么使用哪种解析器呢 我使用Httrack,它也可以获取html文件。您可能将winhttrack项

我正在开发一个Java项目,其中有一个子模块,我需要从一个网页中提取内容[文本、图像、颜色],并将其与另一个网页进行比较。我计划使用WinHTTrack软件在本地下载网页,但问题是它没有将其保存为HTML。如何使用WinHTTrack之类的软件下载具有HTML扩展名的网页[或者仅通过ctrl+s保存网页是不够的。]。我还计划在本地下载网页后,使用HTML解析器提取3种内容类型[文本、图像、颜色]。那么使用哪种解析器呢

我使用Httrack,它也可以获取html文件。您可能将winhttrack项目文件作为唯一的输出文件,但如果您在项目目录中进行检查,则会出现html文件(以及图像等)。我建议使用-。它是一个java库,因为您的项目是一个java项目,所以应该很容易使用它。您还可以使用org.htmlparser.parserapplications.SiteCapturer在本地保存整个网站(并指定是否也应捕获图像等资源)。希望有帮助。

谢谢您提供的信息。我会像你说的那样,在HTTrack的目录中检查它。关于解析器,我也读过关于“HTMLParser”的好评论。好吧,我会开始使用它,并让你知道。对于比较,我的意思是比较一个网页和另一个网页的文本、图像、颜色,我该怎么做?很高兴我能帮上忙。比较是另一种情况,因此你需要提出另一个问题好的,我会提出另一个问题。在我将页面下载到本地磁盘后,你能解释一下如何使用HTMLPasser来提取内容吗?有关于HTMLPasser的教程吗。?