Java 仅解析html正文外部文本

Java 仅解析html正文外部文本,java,jsoup,html-parsing,Java,Jsoup,Html Parsing,我使用JSoup解析HTML。 我怎样才能得到正文? 我的意思是我只想要外部文本,而不包含其他标签的文本 (音乐使我们能雄辩地思考。) ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။ 音乐使我们能雄辩地思考。 documentdoc=Jsoup.parse(“您的内容”); 字符串body=doc.body().textNodes().get(1.text(); 我知道问题已经得到了回答,并且答案被标记为已接受的答案,但

我使用JSoup解析HTML。 我怎样才能得到正文? 我的意思是我只想要外部文本,而不包含其他标签的文本

(音乐使我们能雄辩地思考。)


ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။

音乐使我们能雄辩地思考。
documentdoc=Jsoup.parse(“您的内容”);
字符串body=doc.body().textNodes().get(1.text();

我知道问题已经得到了回答,并且答案被标记为已接受的答案,但我认为还有另一种方法可以得到问题的答案:

JSoup提供了这个方法。这样,您就可以获得元素的所有文本节点,这些节点是该元素的直接子元素。子元素及其文本节点将不会返回

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();
Document doc=Jsoup.parse(“文本未包含”

包含”); 元素体=doc.body(); 字符串ownText=body.ownText();
谢谢您的回答。但是我已经用这个代码试过了。此doc.body().text()解析body标记之间的所有文本。我只想获取外部文本@理查德克虽然这个代码片段可以解决这个问题,但确实有助于提高您的文章质量。请记住,您将在将来为读者回答这个问题,而这些人可能不知道您的代码建议的原因。@Mthk我已更新了我的答案。现在这就是你要找的。@RichardK谢谢你。我得到了它。但是正确的答案是doc.body().textNodes().get(0.text();)。
Document doc = Jsoup.parse("<body> your content </body>");
String body = doc.body().textNodes().get(1).text();
Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();