如何为ApacheNutch注册Regex网站URL?
我正在尝试使用正则表达式设置ApacheNutch,以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式,我有困难,以解决如何在正则表达式我的领域。 域名是如何为ApacheNutch注册Regex网站URL?,regex,url,nutch,Regex,Url,Nutch,我正在尝试使用正则表达式设置ApacheNutch,以便仅对具有指定域的网站进行爬网。我没有太多的经验与正则表达式,我有困难,以解决如何在正则表达式我的领域。 域名是 https://www.health.gov.au/ 我希望任何一个带有这个域的网页都能被Regex接受。 谢谢你的时间 编辑 例如,我想要https://www.health.gov.au/health-topics要被正则表达式接受您可以使用(https://www.health.gov.au/.*) 这将匹配https://
https://www.health.gov.au/
我希望任何一个带有这个域的网页都能被Regex接受。
谢谢你的时间
编辑
例如,我想要https://www.health.gov.au/health-topics
要被正则表达式接受您可以使用(https://www.health.gov.au/.*)
这将匹配https://www.health.gov.au/
什么问题?我不知道允许url中包含域的任何网页的语法。e、 g.我想要
https://www.health.gov.au/health-topics
允许