使用jSoup从Java网页中提取所有图像和文本
我想提取网页中所有图像的alt文本。 我知道,我已经尝试了所有的方法。你可以查一下 下面是代码使用jSoup从Java网页中提取所有图像和文本,java,jsoup,Java,Jsoup,我想提取网页中所有图像的alt文本。 我知道,我已经尝试了所有的方法。你可以查一下 下面是代码 Document doc = Jsoup.connect("https://www.amazon.com/gp/offer-listing/B003FYLW9Q/ref=olp_f_new?ie=UTF8&f_new=true") .userAgent("Mozilla") .timeout(50000) .cookie("cookiename", "val234")
Document doc = Jsoup.connect("https://www.amazon.com/gp/offer-listing/B003FYLW9Q/ref=olp_f_new?ie=UTF8&f_new=true")
.userAgent("Mozilla")
.timeout(50000)
.cookie("cookiename", "val234")
.cookie("anothercookie", "ilovejsoup")
.referrer("http://google.com")
.header("headersecurity", "xyz123")
.get();
// Method 1
Elements images = doc.select("img[src~=(?i)\\.(gif)]");
System.out.println(images.attr("alt"));
// Method 2
String imageAlt = doc.getElementsByClass("a-spacing-none olpSellerName").select("img").attr("alt");
System.out.println(imageAlt);
现在,此代码不适用于connect方法中的链接。
它不适用于某些链接,也不获取该网页中的所有URL
但这适用于以下链接:
所有链接的类都是相同的。但它不适用于某些链接。有谁能告诉我这个问题的解决方法吗。
img[alt]
应该可以。是的,它可以。但是这段代码会获取所有图像和文本。它不适用于某些链接。您需要使用a[alt]
单独选择链接。我只想从img标记中获取alt文本。您想检索alt
属性还是href
或src
?