使用Jsoup HTML解析器解析注释标记
我正在用basic解析器程序解析一个简单的HTML文档使用Jsoup HTML解析器解析注释标记,html,parsing,jsoup,Html,Parsing,Jsoup,我正在用basic解析器程序解析一个简单的HTML文档 Document doc = Jsoup.parse(responseFromServer); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); String linkText = null; for (Element link : links) { linkText = link
Document doc = Jsoup.parse(responseFromServer);
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
String linkText = null;
for (Element link : links) {
linkText = link.text();
}
有些标签被注释掉了。我还想解析注释中的那些标记。由于我没有访问HTML输出源的权限,我无法编辑文件和删除注释
如何解析注释标记?Jsoup默认情况下忽略注释。要解析它们,可以在解析之前转换html字符串。类似的东西
htmlStr = htmlStr.replaceAll("<!--|-->","");
document doc = Jsoup.parser(htmlStr);
htmlStr=htmlStr.replaceAll(“,”);
document doc=Jsoup.parser(htmlStr);
只有当注释掉的html实际上或多或少是有效的html时,这才不会出现问题。如果只是文本,您可能需要对其进行不同的转换