使用Jsoup HTML解析器解析注释标记_Html_Parsing_Jsoup

使用Jsoup HTML解析器解析注释标记

html parsing

使用Jsoup HTML解析器解析注释标记,html,parsing,jsoup,Html,Parsing,Jsoup,我正在用basic解析器程序解析一个简单的HTML文档 Document doc = Jsoup.parse(responseFromServer); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); String linkText = null; for (Element link : links) { linkText = link

我正在用basic解析器程序解析一个简单的HTML文档

Document doc = Jsoup.parse(responseFromServer);

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
String linkText = null;
for (Element link : links) {      
  linkText = link.text();
}

有些标签被注释掉了。我还想解析注释中的那些标记。由于我没有访问HTML输出源的权限，我无法编辑文件和删除注释

如何解析注释标记？

Jsoup默认情况下忽略注释。要解析它们，可以在解析之前转换html字符串。类似的东西

 htmlStr = htmlStr.replaceAll("<!--|-->","");
 document doc = Jsoup.parser(htmlStr);

htmlStr=htmlStr.replaceAll（“，”）；
document doc=Jsoup.parser（htmlStr）；

只有当注释掉的html实际上或多或少是有效的html时，这才不会出现问题。如果只是文本，您可能需要对其进行不同的转换