如何为ApacheNutch注册Regex网站URL？_Regex_Url_Nutch

如何为ApacheNutch注册Regex网站URL？

regex url

如何为ApacheNutch注册Regex网站URL？,regex,url,nutch,Regex,Url,Nutch,我正在尝试使用正则表达式设置ApacheNutch，以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式，我有困难，以解决如何在正则表达式我的领域。域名是 https://www.health.gov.au/ 我希望任何一个带有这个域的网页都能被Regex接受。谢谢你的时间编辑例如，我想要https://www.health.gov.au/health-topics要被正则表达式接受您可以使用(https://www.health.gov.au/.*) 这将匹配https://

我正在尝试使用正则表达式设置ApacheNutch，以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式，我有困难，以解决如何在正则表达式我的领域。域名是

https://www.health.gov.au/

我希望任何一个带有这个域的网页都能被Regex接受。谢谢你的时间

编辑例如，我想要

https://www.health.gov.au/health-topics

要被正则表达式接受

您可以使用

(https://www.health.gov.au/.*)

这将匹配

https://www.health.gov.au/

什么问题？我不知道允许url中包含域的任何网页的语法。e、 g.我想要

https://www.health.gov.au/health-topics

允许