Java 使用jsoup清理源代码解析网站
当JavaJSoup站点进行分析时,我想删除每个Java 使用jsoup清理源代码解析网站,java,string,jsoup,Java,String,Jsoup,当JavaJSoup站点进行分析时,我想删除每个img标记中的/> 资料来源: <div> <a href="#">ABC</a> <a href="#"><img src="#"/></a> <br/> </div> 结果: <div> <a href="#">ABC</a> <a href="#">
img
标记中的/>
资料来源:
<div>
<a href="#">ABC</a>
<a href="#"><img src="#"/></a>
<br/>
</div>
结果:
<div>
<a href="#">ABC</a>
<a href="#"><img src="#"></a>
<br/>
</div>
尝试html()
方法
public class Test {
public static void main(String[] args) {
String s="<div>\n" +
" <a href=\"#\">ABC</a> \n" +
" <a href=\"#\"><img src=\"#\"/></a>\n" +
" <br/>\n" +
"</div>";
System.out.println(Jsoup.parse(s).html());
}
}
公共类测试{
公共静态void main(字符串[]args){
字符串s=“\n”+
“\n”+
“\n”+
“
\n”+
"";
System.out.println(Jsoup.parse(s.html());
}
}
输出:
<html>
<head></head>
<body>
<div>
<a href="#">ABC</a>
<a href="#"><img src="#"></a>
<br>
</div>
</body>
</html>
到目前为止您做了什么?这是jsoup中的默认行为(请参阅),那么具体问题是什么?您好,我想问一下如何删除img中的“/>”。因为我使用博客的内容,博客要求删除“/>”以显示准确的结果您可以使用jsoup.parse(yourHtmlString.html()
方法,但这将与html正文一起提供。