Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/347.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何提取HTML attibute的内容_Java_Html_Parsing_Web Crawler_Jsoup - Fatal编程技术网

Java 如何提取HTML attibute的内容

Java 如何提取HTML attibute的内容,java,html,parsing,web-crawler,jsoup,Java,Html,Parsing,Web Crawler,Jsoup,我正在开发一个包含在web爬虫解析器中的Java程序。 我使用Jsoup从网页下载HTML源代码,我想提取src和alt,以便将它们写入CSV文件。 问题是,我找不到删除alt=“”和src=“”的方法。 我不希望它们出现在我的CSV文件中,我只想要图片URL及其描述。有人有主意吗? 以下是我的工作: Document html = Jsoup.connect(url).get(); Elements titres = html.select("img[src$=.jpg], div[class

我正在开发一个包含在web爬虫解析器中的Java程序。 我使用Jsoup从网页下载HTML源代码,我想提取src和alt,以便将它们写入CSV文件。 问题是,我找不到删除
alt=“”
src=“”
的方法。 我不希望它们出现在我的CSV文件中,我只想要图片URL及其描述。有人有主意吗? 以下是我的工作:

Document html = Jsoup.connect(url).get();
Elements titres = html.select("img[src$=.jpg], div[class$=price] ");

谢谢你的回答,但由于这是一个专业的项目,我已经找到了另一种方法。 对于那些想知道我是怎么做的人

String image = titres.get(i).attr("src");

为什么不将它们放在csv中,并生成另一个java作业(regex)来从csv中清除它们呢?