Java-如何从HTML站点解析信息？_Java_Html_Parsing_Servlets

Java-如何从HTML站点解析信息？

java html parsing servlets

Java-如何从HTML站点解析信息？,java,html,parsing,servlets,Java,Html,Parsing,Servlets,我有一个StringBuffer，里面有一个HTML站点，我想知道这个站点的一些具体信息 1行为f.e.： img class=“a”数据src=”http://test.com“src=”“/Jsoup就可以了，只需做一点css，您就可以得到所需的任何元素 Document doc = Jsoup.connect("http://test.com").get(); //DOM Selector CSS String see jsoup docs. //This will select all

我有一个StringBuffer，里面有一个HTML站点，我想知道这个站点的一些具体信息

1行为f.e.：

img class=“a”数据src=”http://test.com“src=”“/Jsoup就可以了，只需做一点css，您就可以得到所需的任何元素

Document doc = Jsoup.connect("http://test.com").get();
//DOM Selector CSS String see jsoup docs.
//This will select all image elements with the a class similar to css. IE: img.a
//http://jsoup.org/cookbook/extracting-data/selector-syntax
//Get all elements that are images with class of a

Elements images=doc.select（“img.a”）
stringurl=image.attr（“数据src”）
}
这是一个常见的问题，您可以通过快速的谷歌搜索找到答案
查看正则表达式（regex），因为您可能不止一次需要它。
考虑一下框架
有一种机制可以查找html元素并对其进行操作。jsoup（）jeah但我没有找到我需要的内容。我需要一个正则表达式，比如：xxxINEEDTHATyyy，在这里我可以说：我想要在xxx和yyy之间的“INEEDTHAT”，其中INEEDTHAT是未知的，我不想因为别人的答案而获得荣誉，所以这里有一个指向同一个问题的链接-thx这是完美的。最后一个问题：现在我有两个模式（p，l），我将它们放在同一个匹配器（m）中，因为顺序是：模式p=Pattern.compile（Pattern.quote（pattern1）+“（.*？”+>>Pattern.quote（pattern2））；Pattern l=Pattern.compile（Pattern.quote（pattern3）+“（.*？”++>>Pattern.quote（pattern4））；Matcher m=p.Matcher（res.toString（））；而（m.find（））{System.out.println（m.group（1））；}如何在m中获得这两种模式？我没有得到它。我在doc中加载html页面，但是doc.选择什么（“img[data src]”）；做我不知道数据src，也不想要所有图像的src，只有类的图像a@user3688653为了清晰起见，更新了此内容。如果您有任何其他问题，请告诉我。
for (Element image : images) {
//Get the url of the image