Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在Java中遍历网页中的所有文件名/URL_Java_Regex_Parsing_Web Crawler - Fatal编程技术网

在Java中遍历网页中的所有文件名/URL

在Java中遍历网页中的所有文件名/URL,java,regex,parsing,web-crawler,Java,Regex,Parsing,Web Crawler,我正在尝试用Java抓取一个网页,我需要搜索网页的URL和文件路径,可以是相对的,也可以是绝对的。(例如../../file.gif或)。并不是所有这些文件都有html标记,比如,因为一些文件路径可能嵌入到一些javascript中 如果有人能给我指出正确的方向,那就太棒了。如果你读过谷歌的相关文章,你就会知道不要使用正则表达式,而是使用HTML解析器,比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示:如果标记不可靠,您可以将页面视为文本文档,并使用以

我正在尝试用Java抓取一个网页,我需要搜索网页的URL和文件路径,可以是相对的,也可以是绝对的。(例如../../file.gif或)。并不是所有这些文件都有html标记,比如
,因为一些文件路径可能嵌入到一些javascript中


如果有人能给我指出正确的方向,那就太棒了。

如果你读过谷歌的相关文章,你就会知道不要使用正则表达式,而是使用HTML解析器,比如JSoup。用正则表达式解析HTML就像用叉子喝汤一样。不要这样做。这可能会提供一些启示:如果标记不可靠,您可以将页面视为文本文档,并使用以下方法: