Java Jsoup:从锚标记中提取innertext
这是我的问题。我有一个html内容: 内部文本 我需要提取“内部文本”。在Jsoup中尝试这一点时,我发现当Jsoup解析innertext时,innertext超出了锚标记 这是我的密码Java Jsoup:从锚标记中提取innertext,java,html,html-parsing,jsoup,Java,Html,Html Parsing,Jsoup,这是我的问题。我有一个html内容: 内部文本 我需要提取“内部文本”。在Jsoup中尝试这一点时,我发现当Jsoup解析innertext时,innertext超出了锚标记 这是我的密码 Document doc=Jsoup.parse("<div> <a href="#"> innerText </a> </div>"); System.out.println(doc.html()); documentdoc=Jsoup.parse(“”
Document doc=Jsoup.parse("<div> <a href="#"> innerText </a> </div>");
System.out.println(doc.html());
documentdoc=Jsoup.parse(“”);
System.out.println(doc.html());
输出:
<html>
<head></head>
<body>
<div >
<a href="#"></a>innerText
</div>
</body>
</html>
内部文本
为什么“innerText”被移动到锚标记之外 您可以通过调用元素上的
text()
方法来访问文本
Document doc = Jsoup.parse("<div> <a href=\"#\"> innerText </a> </div>");
System.out.println(doc.html());
Elements rows = doc.getElementsByTag("a");
for (Element element : rows) {
System.out.println("element = " + element.text());
}
documentdoc=Jsoup.parse(“”);
System.out.println(doc.html());
元素行=doc.getElementsByTag(“a”);
for(元素:行){
System.out.println(“element=“+element.text());
}
顺便说一句,使用发布的代码(和JSOUP1.8.1)生成以下输出
<html>
<head></head>
<body>
<div>
<a href="#"> innerText </a>
</div>
</body>
</html>
您使用的是哪个版本的JSoup?@次优JSoup-1.8.1已将您的代码与版本1.8.1进行了核对,我发布的答案仍然有效。innerText
显示在a
标记内。