在Java中遍历网页中的所有文件名/URL_Java_Regex_Parsing_Web Crawler

在Java中遍历网页中的所有文件名/URL

java regex parsing web-crawler

在Java中遍历网页中的所有文件名/URL,java,regex,parsing,web-crawler,Java,Regex,Parsing,Web Crawler,我正在尝试用Java抓取一个网页，我需要搜索网页的URL和文件路径，可以是相对的，也可以是绝对的。（例如../../file.gif或）。并不是所有这些文件都有html标记，比如，因为一些文件路径可能嵌入到一些javascript中如果有人能给我指出正确的方向，那就太棒了。如果你读过谷歌的相关文章，你就会知道不要使用正则表达式，而是使用HTML解析器，比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示：如果标记不可靠，您可以将页面视为文本文档，并使用以

我正在尝试用Java抓取一个网页，我需要搜索网页的URL和文件路径，可以是相对的，也可以是绝对的。（例如../../file.gif或）。并不是所有这些文件都有html标记，比如

，因为一些文件路径可能嵌入到一些javascript中

如果有人能给我指出正确的方向，那就太棒了。

如果你读过谷歌的相关文章，你就会知道不要使用正则表达式，而是使用HTML解析器，比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示：如果标记不可靠，您可以将页面视为文本文档，并使用以下方法：