Java 从具有URL约束的某个域下载页面列表

Java 从具有URL约束的某个域下载页面列表,java,regex,webpage,wget,Java,Regex,Webpage,Wget,我需要下载一个有特定URL结尾的域上所有页面的列表 例如,我有一个网页,像http://brnensky.denik.cz/,这是一个捷克新闻网页。每篇文章都有以发布日期结尾的URL,如http://brnensky.denik.cz/zpravy_region/ruzova-kola-usnadni-presun-po-brne-20140418.html 因此,我想找到所有以http://brnensky.denik.cz/,然后随便什么,然后例如-20140418.html。有可能实现吗

我需要下载一个有特定URL结尾的域上所有页面的列表

例如,我有一个网页,像
http://brnensky.denik.cz/
,这是一个捷克新闻网页。每篇文章都有以发布日期结尾的URL,如
http://brnensky.denik.cz/zpravy_region/ruzova-kola-usnadni-presun-po-brne-20140418.html

因此,我想找到所有以
http://brnensky.denik.cz/
,然后随便什么,然后例如
-20140418.html
。有可能实现吗

我正试图用Java解决这个问题,但任何其他方法都会有所帮助。

Regex会很有用

^http://brnensky\.denik\.cz.*[0-9]{8}\.html
逻辑

以URL开头,以date.html结尾,日期始终为8位字符串


根据用于实现此表达式的工具或语言,您可能必须转义“/”

我正试图用Java解决此问题
然后告诉我们您尝试了什么以及尝试失败的地方。为什么是Java?ie Python更适合这种任务。