Java 带标记的htmlcleaner解析_Java_Android_Html Parsing_Htmlcleaner

Java 带标记的htmlcleaner解析

java android

Java 带标记的htmlcleaner解析,java,android,html-parsing,htmlcleaner,Java,Android,Html Parsing,Htmlcleaner,我尝试提取页面的某些部分。我使用解析器HtmlCleaner，它会删除所有标记。是否有一些设置来保存所有html标记？或者，使用其他方法提取这部分代码是更好的方法我的代码： static final String XPATH_STATS = "//div[@class='text']/p/"; // config cleaner properties HtmlCleaner htmlCleaner = new HtmlCleaner(); CleanerProperties props =

我尝试提取页面的某些部分。我使用解析器HtmlCleaner，它会删除所有标记。是否有一些设置来保存所有html标记？或者，使用其他方法提取这部分代码是更好的方法

我的代码：

static final String XPATH_STATS = "//div[@class='text']/p/";

// config cleaner properties
HtmlCleaner htmlCleaner = new HtmlCleaner();
CleanerProperties props = htmlCleaner.getProperties();
props.setAllowHtmlInsideAttributes(false);
props.setAllowMultiWordAttributes(true);
props.setRecognizeUnicodeChars(true);
props.setOmitComments(true);
props.setTransSpecialEntitiesToNCR(true);


// create URL object
URL url = new URL(BLOG_URL);
// get HTML page root node
TagNode root = htmlCleaner.clean(url);


Object[] statsNode = root.evaluateXPath(XPATH_STATS);
for (Object tag : statsNode) {
    stats =  stats + tag.toString().trim();
}

return stats;

谢谢nikhil.thakkar！我是通过JSON实现的。代码可能会帮助某人：

    URL url2 = new URL(BLOG_URL);
    Document doc2 = Jsoup.parse(url2, 3000);
    Element masthead = doc2.select("div.main_text").first();
    String linkOuterH = masthead.outerHtml();

您可以使用jSoup解析器。更多信息请点击此处：