如何仅在java中获取特定标记的Jsoup消息？_Java_Jsoup

如何仅在java中获取特定标记的Jsoup消息？

java

如何仅在java中获取特定标记的Jsoup消息？,java,jsoup,Java,Jsoup,我的HTML中有这样的标记： <p class="outter"> <strong class="inner">not needed message</strong> NEEDED MESSAGE </p> 它打印：不需要的消息需要的消息因此，问题是：如果没有来自内部标记的文本，如何获取特定标记的文本？一种解决方案可能是只选择TextNode元素。在下面找到一个小片段 String html = "<p class=\"out

我的HTML中有这样的标记：

<p class="outter">
  <strong class="inner">not needed message</strong>
  NEEDED MESSAGE
</p>

它打印：

不需要的消息需要的消息

因此，问题是：

如果没有来自内部标记的文本，如何获取特定标记的文本？

一种解决方案可能是只选择TextNode元素。在下面找到一个小片段

String html = "<p class=\"outter\">\n"
        + "  <strong class=\"inner\">not needed message</strong>\n"
        + "  NEEDED MESSAGE\n"
        + "</p>";
Document doc = Jsoup.parse(html);
Elements elements = doc.select("p.outter");
for (Element element : elements) {
    // as mentioned by luksch
    System.out.println("ownText = " + element.ownText());

    // or manually based on the node type
    for (Node node : element.childNodes()) {
        if (node instanceof TextNode) {
            System.out.println("node = " + node);
        }
    }
}

因此，您需要根据您的需求过滤输出。例如，跳过空的。

一种解决方案是只选择TextNode元素。在下面找到一个小片段

String html = "<p class=\"outter\">\n"
        + "  <strong class=\"inner\">not needed message</strong>\n"
        + "  NEEDED MESSAGE\n"
        + "</p>";
Document doc = Jsoup.parse(html);
Elements elements = doc.select("p.outter");
for (Element element : elements) {
    // as mentioned by luksch
    System.out.println("ownText = " + element.ownText());

    // or manually based on the node type
    for (Node node : element.childNodes()) {
        if (node instanceof TextNode) {
            System.out.println("node = " + node);
        }
    }
}

因此，您需要根据您的需求过滤输出。例如，跳过空段落。

您可以在选择段落后使用ownText。范例

package com.stackoverflow.answer;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.jsoup.nodes.Element;

public class HtmlParserExample {

    public static void main(String[] args) {
        String html = "<p class=\"outter\"><strong class=\"inner\">not needed message</strong>NEEDED MESSAGE</p>";
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        for (Element p : paragraphs)
            System.out.println(p.ownText());
    }

}

选择段落后，可以使用ownText。范例

package com.stackoverflow.answer;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.jsoup.nodes.Element;

public class HtmlParserExample {

    public static void main(String[] args) {
        String html = "<p class=\"outter\"><strong class=\"inner\">not needed message</strong>NEEDED MESSAGE</p>";
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        for (Element p : paragraphs)
            System.out.println(p.ownText());
    }

}

使用Jsoup的方法：

关于ownText的never new，非常有用的txt关于ownText的never new，非常有用的txt关于ownText的never new，非常有用的txt关于ownText的never new，非常有用的txt

String results = document.select("p.outter").ownText();
System.out.println(results);