使用Java在网页上查找链接

使用Java在网页上查找链接,java,regex,hyperlink,Java,Regex,Hyperlink,使用Java将网页的源代码存储在字符串中。我想提取源代码中的所有URL并输出它们。我对regex之类的东西很糟糕,甚至不知道如何处理这个问题。任何帮助都将不胜感激 。使用一个类似的工具 您可以使用,然后提取链接,简单如下: WebClient wc = new WebClient(); URL url = new URL("http://www.oogly.co.uk/"); HtmlPage page = (HtmlPage) wc.getPage(url); PrintWriter prin

使用Java将网页的源代码存储在字符串中。我想提取源代码中的所有URL并输出它们。我对regex之类的东西很糟糕,甚至不知道如何处理这个问题。任何帮助都将不胜感激

。使用一个类似的工具

您可以使用,然后提取链接,简单如下:

WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();

protip:不要用正则表达式解析html。
WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();