Java 使用JSOUP进行Web抓取

Java 使用JSOUP进行Web抓取,java,jsoup,Java,Jsoup,我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签(如,,等)中提取数据。有人能告诉我怎么做吗?检查。一个基本的例子: import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[]

我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签(如
等)中提取数据。有人能告诉我怎么做吗?

检查。一个基本的例子:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String text = document.select("div").first().text();
        System.out.println(text);

        Elements links = document.select("a");
        for (Element link : links) {
            System.out.println(link.attr("href"));
        }
    }

}
这将首先打印页面上第一个
div
的文本,然后打印页面上所有链接(
a
)的所有url


要获取具有特定类的div,请执行
Elements=document。选择(“div.someclass”)

要获取具有特定id的div,请执行
Elements=document。选择(“div#someclass”)

如果要浏览所有选定图元,请执行以下操作:

for (Element e:elements) {
   System.out.println(e.text());
   //you can also do other things.
}

请告诉我们,到目前为止您已经尝试了什么,所以不是神奇地获取代码的地方。我刚刚做了一个新项目,添加了一个jsoup jar文件并建立了连接。事实上,我对这一点还不熟悉。我想废弃驻留在不同标记中的数据,如上面所示。亲爱的,这是关于第一个,关于其他div和具有特定类名和ids@MuhammadWaqas,我已经更新了答案。JonasCz谢谢你…@MuhammadWaqas,如果我的答案对你有帮助,请点击旁边的复选标记接受它:-)