Java 如何使用JSOUP从网站中提取主要文本并排除存档和链接到其他网页_Java_Jsoup

Java 如何使用JSOUP从网站中提取主要文本并排除存档和链接到其他网页

java

Java 如何使用JSOUP从网站中提取主要文本并排除存档和链接到其他网页,java,jsoup,Java,Jsoup,我只知道如何提取主要文本和排除评论，但无法排除存档和链接到其他网页这是我的代码： package CrawlerMain; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Node; public class MainFour { public static void main(String[] args) thr

我只知道如何提取主要文本和排除评论，但无法排除存档和链接到其他网页

这是我的代码：

package CrawlerMain;

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Node;

public class MainFour {

    public static void main(String[] args) throws IOException {
        Document doc = Jsoup.connect("http://www.papagomo.com").get();
        //get text only
        removeComments(doc); 
        String text = doc.body().text();
        System.out.println(text);
    }

    private static void removeComments(Node node) {
        int i = 0;
        while (i < node.childNodes().size()) {
            Node child = node.childNode(i);
            if (child.nodeName().equals("#comment"))
                child.remove();
            else {
                removeComments(child);
                i++;
            }
        } //To change body of generated methods, choose Tools | Templates.
    }

}

package-CrawlerMain；
导入java.io.IOException；
导入org.jsoup.jsoup；
导入org.jsoup.nodes.Document；
导入org.jsoup.nodes.Node；
公共四级{
公共静态void main（字符串[]args）引发IOException{
Document doc=Jsoup.connect（“http://www.papagomo.com）.get（）；
//仅获取文本
移除元素（doc）；
字符串text=doc.body（）.text（）；
System.out.println（文本）；
}
私有静态void removeComments（节点）{
int i=0；
而（i

下面是一个示例，但它还不完整。您必须添加一些筛选以删除所有不需要的内容：

Document doc = Jsoup.connect("http://www.papagomo.com").get();


for( Element element : doc.select("div") ) // Select only 'div' tags
{
    final String ownText = element.ownText(); // Own text of this element

    if( ownText.isEmpty() )
    {
        continue; // Skip empty tags
    }
    else
    {
        System.out.println(ownText); // Output to see the result
    }
}

请提供有关您的问题/错误的更多信息。此代码将提取文本并忽略注释框中的文本。不过，它也提取了存档框中的文本，以及发布在特定网站上的时间和日期条目。这里的问题是我不知道如何只提取正文而忽略所有内容。如果你的问题得到了回答，请接受答案（）