使用jSoup从Java网页中提取所有图像和文本

使用jSoup从Java网页中提取所有图像和文本,java,jsoup,Java,Jsoup,我想提取网页中所有图像的alt文本。 我知道,我已经尝试了所有的方法。你可以查一下 下面是代码 Document doc = Jsoup.connect("https://www.amazon.com/gp/offer-listing/B003FYLW9Q/ref=olp_f_new?ie=UTF8&f_new=true") .userAgent("Mozilla") .timeout(50000) .cookie("cookiename", "val234")

我想提取网页中所有图像的alt文本。 我知道,我已经尝试了所有的方法。你可以查一下 下面是代码

Document doc = Jsoup.connect("https://www.amazon.com/gp/offer-listing/B003FYLW9Q/ref=olp_f_new?ie=UTF8&f_new=true")
    .userAgent("Mozilla")
    .timeout(50000)
    .cookie("cookiename", "val234")
    .cookie("anothercookie", "ilovejsoup")
    .referrer("http://google.com")
    .header("headersecurity", "xyz123")
    .get();


// Method 1
Elements images = doc.select("img[src~=(?i)\\.(gif)]");
System.out.println(images.attr("alt"));  

// Method 2
String imageAlt = doc.getElementsByClass("a-spacing-none olpSellerName").select("img").attr("alt");
System.out.println(imageAlt);  
现在,此代码不适用于connect方法中的链接。 它不适用于某些链接,也不获取该网页中的所有URL

但这适用于以下链接:


所有链接的类都是相同的。但它不适用于某些链接。有谁能告诉我这个问题的解决方法吗。

img[alt]
应该可以。是的,它可以。但是这段代码会获取所有图像和文本。它不适用于某些链接。您需要使用
a[alt]
单独选择链接。我只想从img标记中获取alt文本。您想检索
alt
属性还是
href
src