javajericho超链接解析
我正在试图找到一种方法来获取网页中的所有超链接,除非它们位于锚定标记()中 为此,我使用Jericho解析器 我最初的做法是将两者区别开来javajericho超链接解析,java,parsing,jericho-html-parser,Java,Parsing,Jericho Html Parser,我正在试图找到一种方法来获取网页中的所有超链接,除非它们位于锚定标记()中 为此,我使用Jericho解析器 我最初的做法是将两者区别开来 List elementList=source.getAllegements()和 getAllegements(HTMLElementName.A),但其他元素也可能包含锚定链接,因此我认为这不是正确的方法 我建议您进行Html处理 下面是一个示例,说明如何获取所有链接(a-带有href-属性的标记): 文档: 顺便说一句,你能再解释一下吗 除
List elementList=source.getAllegements()代码>和
getAllegements(HTMLElementName.A)
,但其他元素也可能包含锚定链接,因此我认为这不是正确的方法 我建议您进行Html处理
下面是一个示例,说明如何获取所有链接(a
-带有href
-属性的标记):
文档:
顺便说一句,你能再解释一下吗
除非它们位于锚定标记中
Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute
for( Element element : links ) // iterate over all links (example)
{
// process element
}