Java 仅解析html正文外部文本_Java_Jsoup_Html Parsing

Java 仅解析html正文外部文本

java

Java 仅解析html正文外部文本,java,jsoup,html-parsing,Java,Jsoup,Html Parsing,我使用JSoup解析HTML。我怎样才能得到正文？我的意思是我只想要外部文本，而不包含其他标签的文本（音乐使我们能雄辩地思考。） ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။ 音乐使我们能雄辩地思考。 documentdoc=Jsoup.parse（“您的内容”）；字符串body=doc.body（）.textNodes（）.get（1.text（）；我知道问题已经得到了回答，并且答案被标记为已接受的答案，但

我使用JSoup解析HTML。我怎样才能得到正文？我的意思是我只想要外部文本，而不包含其他标签的文本

（音乐使我们能雄辩地思考。）


ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။
音乐使我们能雄辩地思考。

documentdoc=Jsoup.parse（“您的内容”）；
字符串body=doc.body（）.textNodes（）.get（1.text（）；

我知道问题已经得到了回答，并且答案被标记为已接受的答案，但我认为还有另一种方法可以得到问题的答案：

JSoup提供了这个方法。这样，您就可以获得元素的所有文本节点，这些节点是该元素的直接子元素。子元素及其文本节点将不会返回

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();

Document doc=Jsoup.parse（“文本未包含”包含”）；
元素体=doc.body（）；
字符串ownText=body.ownText（）；

谢谢您的回答。但是我已经用这个代码试过了。此doc.body（）.text（）解析body标记之间的所有文本。我只想获取外部文本@理查德克虽然这个代码片段可以解决这个问题，但确实有助于提高您的文章质量。请记住，您将在将来为读者回答这个问题，而这些人可能不知道您的代码建议的原因。@Mthk我已更新了我的答案。现在这就是你要找的。@RichardK谢谢你。我得到了它。但是正确的答案是doc.body（）.textNodes（）.get（0.text（）；）。

Document doc = Jsoup.parse("<body> your content </body>");
String body = doc.body().textNodes().get(1).text();

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();