Java 使用JSOUP进行Web抓取
我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签(如Java 使用JSOUP进行Web抓取,java,jsoup,Java,Jsoup,我是个刮毛新手。我正在尝试使用JSOUP从站点中获取数据。我想从标签(如,,等)中提取数据。有人能告诉我怎么做吗?检查。一个基本的例子: import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[]
,
,
等)中提取数据。有人能告诉我怎么做吗?检查。一个基本的例子:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) throws Exception {
String url = "https://stackoverflow.com/questions/2835505";
Document document = Jsoup.connect(url).get();
String text = document.select("div").first().text();
System.out.println(text);
Elements links = document.select("a");
for (Element link : links) {
System.out.println(link.attr("href"));
}
}
}
这将首先打印页面上第一个div
的文本,然后打印页面上所有链接(a
)的所有url
要获取具有特定类的div,请执行
Elements=document。选择(“div.someclass”)
要获取具有特定id的div,请执行Elements=document。选择(“div#someclass”)
如果要浏览所有选定图元,请执行以下操作:
for (Element e:elements) {
System.out.println(e.text());
//you can also do other things.
}
请告诉我们,到目前为止您已经尝试了什么,所以不是神奇地获取代码的地方。我刚刚做了一个新项目,添加了一个jsoup jar文件并建立了连接。事实上,我对这一点还不熟悉。我想废弃驻留在不同标记中的数据,如上面所示。亲爱的,这是关于第一个,关于其他div和具有特定类名和ids@MuhammadWaqas,我已经更新了答案。JonasCz谢谢你…@MuhammadWaqas,如果我的答案对你有帮助,请点击旁边的复选标记接受它:-)