Java 使用JSOUP进行Web抓取_Java_Jsoup

Java 使用JSOUP进行Web抓取

java

Java 使用JSOUP进行Web抓取,java,jsoup,Java,Jsoup,我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签（如，，等）中提取数据。有人能告诉我怎么做吗？检查。一个基本的例子： import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[]

我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签（如

，

等）中提取数据。有人能告诉我怎么做吗？

检查。一个基本的例子：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String text = document.select("div").first().text();
        System.out.println(text);

        Elements links = document.select("a");
        for (Element link : links) {
            System.out.println(link.attr("href"));
        }
    }

}

这将首先打印页面上第一个

div

的文本，然后打印页面上所有链接（

）的所有url

要获取具有特定类的div，请执行

Elements=document。选择（“div.someclass”）

要获取具有特定id的div，请执行

Elements=document。选择（“div#someclass”）

如果要浏览所有选定图元，请执行以下操作：

for (Element e:elements) {
   System.out.println(e.text());
   //you can also do other things.
}

请告诉我们，到目前为止您已经尝试了什么，所以不是神奇地获取代码的地方。我刚刚做了一个新项目，添加了一个jsoup jar文件并建立了连接。事实上，我对这一点还不熟悉。我想废弃驻留在不同标记中的数据，如上面所示。亲爱的，这是关于第一个，关于其他div和具有特定类名和ids@MuhammadWaqas，我已经更新了答案。JonasCz谢谢你…@MuhammadWaqas，如果我的答案对你有帮助，请点击旁边的复选标记接受它：-）