Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何为ApacheNutch注册Regex网站URL?_Regex_Url_Nutch - Fatal编程技术网

如何为ApacheNutch注册Regex网站URL?

如何为ApacheNutch注册Regex网站URL?,regex,url,nutch,Regex,Url,Nutch,我正在尝试使用正则表达式设置ApacheNutch,以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式,我有困难,以解决如何在正则表达式我的领域。 域名是 https://www.health.gov.au/ 我希望任何一个带有这个域的网页都能被Regex接受。 谢谢你的时间 编辑 例如,我想要https://www.health.gov.au/health-topics要被正则表达式接受您可以使用(https://www.health.gov.au/.*) 这将匹配https://

我正在尝试使用正则表达式设置ApacheNutch,以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式,我有困难,以解决如何在正则表达式我的领域。 域名是
https://www.health.gov.au/
我希望任何一个带有这个域的网页都能被Regex接受。 谢谢你的时间

编辑 例如,我想要
https://www.health.gov.au/health-topics
要被正则表达式接受

您可以使用
(https://www.health.gov.au/.*)

这将匹配
https://www.health.gov.au/


什么问题?我不知道允许url中包含域的任何网页的语法。e、 g.我想要
https://www.health.gov.au/health-topics
允许