基于java的网页图像提取

基于java的网页图像提取,java,html,jsoup,image-extraction,Java,Html,Jsoup,Image Extraction,我刚刚开始做一个内容提取项目。首先,我试图在一个网页的图像网址。在某些情况下,“img”的“src”属性具有相对URL。但我需要得到完整的网址 我正在寻找一些Java库来实现这一点,我认为Jsoup将非常有用。是否有其他库可以轻松实现这一点?如果您只需要从相关库获取完整的URL,那么Java中的解决方案很简单: URL pageUrl = base_url_of_the_html_page; String src = src_attribute_value; //relative or abso

我刚刚开始做一个内容提取项目。首先,我试图在一个网页的图像网址。在某些情况下,“img”的“src”属性具有相对URL。但我需要得到完整的网址


我正在寻找一些Java库来实现这一点,我认为Jsoup将非常有用。是否有其他库可以轻松实现这一点?

如果您只需要从相关库获取完整的URL,那么Java中的解决方案很简单:

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);
HTML页面的基本URL通常就是您从中获取HTML代码的URL。但是,文档头中使用的标记可能用于指定不同的基本URL(但使用频率不高)


您可以使用Jsoup或只是一个DOM解析器来获取src属性值和查找最终的基标记。

不太可能。您需要自己维护对路径的引用。您可以使用URL来提取规范的各种元素以帮助您