使用Java在HTML页面中提取动态呈现的内容

使用Java在HTML页面中提取动态呈现的内容,java,html,parsing,html-parsing,Java,Html,Parsing,Html Parsing,我有一个HTML页面,比如 <html> <head> <!-- necessary java scripts --> </head> <body> <div id="content"></div> </body> 使用脚本,当页面呈现时,适当的html内容被放置在id为“content”的div元素中。因此,在页面呈现之后,会有大量包含ing div元素的html内容 现在,我需要使用Java

我有一个HTML页面,比如

<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>

使用脚本,当页面呈现时,适当的html内容被放置在id为“content”的div元素中。因此,在页面呈现之后,会有大量包含ing div元素的html内容


现在,我需要使用Java在div元素中提取动态呈现的内容。有人能建议一种方法吗?

你可以用javax.swing.text.html.HTMLEditorKit.Parser解析html。看看这个链接


查看以下内容:


问题是您需要用java评估页面上的脚本。你需要一些网络引擎来做这件事。您可以在这里查看:并尝试使用webkit或gecko加载页面。然后,您可以使用一些java库来解析html。

我使用SWT实现了它,它工作得很好!感谢链接:-)