Java 如何提取HTML文件中的所有链接（href）？_Java_Href

Java 如何提取HTML文件中的所有链接（href）？

java

Java 如何提取HTML文件中的所有链接（href）？,java,href,Java,Href,我正在尝试使用Java从HTML文件中提取所有链接模式似乎是。我想获得允许我访问所需网页的URL 你们能帮我一个方法吗（string.contains？string.indexof？）谢谢。基本的方法是使用正则表达式匹配 String html = "YOUR HTML"; String regex = "<a href\\s?=\\s?\"([^\"]+)\">"; Pattern pattern = Pattern.compile(regex);

我正在尝试使用Java从HTML文件中提取所有链接

模式似乎是

。我想获得允许我访问所需网页的URL

你们能帮我一个方法吗（string.contains？string.indexof？）

谢谢。

基本的方法是使用正则表达式匹配

    String html = "YOUR HTML";
    String regex = "<a href\\s?=\\s?\"([^\"]+)\">";
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(html);
    int index = 0;
    while (matcher.find(index)) {
        String wholething = matcher.group(); // includes "<a href" and ">"
        String link = matcher.group(1); // just the link
        // do something with wholething or link.
        index = matcher.end();
    }

String html=“您的html”；
String regex=“像解析器一样使用。这样，您可以调用文档。选择（“a”）
并获取所有链接。还可以访问以获取有关选择语法的更多信息，以指定可以在href
属性中显示的内容。可能重复的