Regex 通过特定模式获取网站的部分或全部(子)页面URL

Regex 通过特定模式获取网站的部分或全部(子)页面URL,regex,url,web-scraping,query-string,glob,Regex,Url,Web Scraping,Query String,Glob,假设我们有一个名为http://www.example.com。我想得到它的URI页面列表(只是URL本身,而不是那些URL中的URL)——要么全部(包括所有子域和所有子页面),要么只是其中的一部分,前提是它们遵循特定的globbing和/或regex模式 例如,我正在寻找一种能够获取所有URL(仅URL地址本身)的方法,这些URL遵循一种模式,例如http://*.example.com/*。我知道Linux中的globbing(例如通过shell)仅限于本地文件和目录(如果我错了,请纠正我)

假设我们有一个名为
http://www.example.com
。我想得到它的URI页面列表(只是URL本身,而不是那些URL中的URL)——要么全部(包括所有子域和所有子页面),要么只是其中的一部分,前提是它们遵循特定的globbing和/或regex模式

例如,我正在寻找一种能够获取所有URL(仅URL地址本身)的方法,这些URL遵循一种模式,例如
http://*.example.com/*
。我知道Linux中的globbing(例如通过shell)仅限于本地文件和目录(如果我错了,请纠正我)

我怎样才能做到这一点

我想这里讨论的是一些相关的东西(虽然不完全相同)


p.S.所有URL都是仅由静态网页组成的网站的一部分。我不确定是否有可能对由动态网页组成的网站做同样的事情。。。此外,我不确定是否有任何URL中包含查询字符串(例如
http://www.example.com/?=abc&xyz
)完全可以用这种方式捕捉。

我没有完全理解这个问题。。你能举个更详细的例子吗?@Bozho嗯,很简单。它要么获取特定域(包括其子域)所有页面的所有URL地址(而不是这些URL的内容,只是网址本身),要么基于regex-/globbing-like模式获取其中一些URL。那么你想对其进行爬网吗?@Bozho是的,但只获取特定域的所有URL,不是他们的内容。web抓取部分将通过使用这些已爬网URL的列表来完成。欢迎任何解决方案!:)另外,唯一的要求是能够使用globbing/regex(-like)模式匹配来限制我想从web域获取的URL。