Java-如何从HTML站点解析信息?

Java-如何从HTML站点解析信息?,java,html,parsing,servlets,Java,Html,Parsing,Servlets,我有一个StringBuffer,里面有一个HTML站点,我想知道这个站点的一些具体信息 1行为f.e.: img class=“a”数据src=”http://test.com“src=”“/Jsoup就可以了,只需做一点css,您就可以得到所需的任何元素 Document doc = Jsoup.connect("http://test.com").get(); //DOM Selector CSS String see jsoup docs. //This will select all

我有一个StringBuffer,里面有一个HTML站点,我想知道这个站点的一些具体信息

1行为f.e.:


img class=“a”数据src=”http://test.com“src=”“/Jsoup就可以了,只需做一点css,您就可以得到所需的任何元素

Document doc = Jsoup.connect("http://test.com").get();
//DOM Selector CSS String see jsoup docs.
//This will select all image elements with the a class similar to css. IE: img.a
//http://jsoup.org/cookbook/extracting-data/selector-syntax
//Get all elements that are images with class of a
Elements images=doc.select(“img.a”)

stringurl=image.attr(“数据src”)


}

这是一个常见的问题,您可以通过快速的谷歌搜索找到答案

查看正则表达式(regex),因为您可能不止一次需要它。

考虑一下框架


有一种机制可以查找html元素并对其进行操作。

jsoup()jeah但我没有找到我需要的内容。我需要一个正则表达式,比如:xxxINEEDTHATyyy,在这里我可以说:我想要在xxx和yyy之间的“INEEDTHAT”,其中INEEDTHAT是未知的,我不想因为别人的答案而获得荣誉,所以这里有一个指向同一个问题的链接-thx这是完美的。最后一个问题:现在我有两个模式(p,l),我将它们放在同一个匹配器(m)中,因为顺序是:模式p=Pattern.compile(Pattern.quote(pattern1)+“(.*?”+>>Pattern.quote(pattern2));Pattern l=Pattern.compile(Pattern.quote(pattern3)+“(.*?”++>>Pattern.quote(pattern4));Matcher m=p.Matcher(res.toString());而(m.find()){System.out.println(m.group(1));}如何在m中获得这两种模式?我没有得到它。我在doc中加载html页面,但是doc.选择什么(“img[data src]”);做我不知道数据src,也不想要所有图像的src,只有类的图像a@user3688653为了清晰起见,更新了此内容。如果您有任何其他问题,请告诉我。
for (Element image : images) {
//Get the url of the image