在Java中遍历网页中的所有文件名/URL
我正在尝试用Java抓取一个网页,我需要搜索网页的URL和文件路径,可以是相对的,也可以是绝对的。(例如../../file.gif或)。并不是所有这些文件都有html标记,比如在Java中遍历网页中的所有文件名/URL,java,regex,parsing,web-crawler,Java,Regex,Parsing,Web Crawler,我正在尝试用Java抓取一个网页,我需要搜索网页的URL和文件路径,可以是相对的,也可以是绝对的。(例如../../file.gif或)。并不是所有这些文件都有html标记,比如,因为一些文件路径可能嵌入到一些javascript中 如果有人能给我指出正确的方向,那就太棒了。如果你读过谷歌的相关文章,你就会知道不要使用正则表达式,而是使用HTML解析器,比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示:如果标记不可靠,您可以将页面视为文本文档,并使用以
,因为一些文件路径可能嵌入到一些javascript中
如果有人能给我指出正确的方向,那就太棒了。如果你读过谷歌的相关文章,你就会知道不要使用正则表达式,而是使用HTML解析器,比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示:如果标记不可靠,您可以将页面视为文本文档,并使用以下方法: