Regex 通过特定模式获取网站的部分或全部（子）页面URL_Regex_Url_Web Scraping_Query String_Glob

Regex 通过特定模式获取网站的部分或全部（子）页面URL

regex url web-scraping

Regex 通过特定模式获取网站的部分或全部（子）页面URL,regex,url,web-scraping,query-string,glob,Regex,Url,Web Scraping,Query String,Glob,假设我们有一个名为http://www.example.com。我想得到它的URI页面列表（只是URL本身，而不是那些URL中的URL）——要么全部（包括所有子域和所有子页面），要么只是其中的一部分，前提是它们遵循特定的globbing和/或regex模式例如，我正在寻找一种能够获取所有URL（仅URL地址本身）的方法，这些URL遵循一种模式，例如http://*.example.com/*。我知道Linux中的globbing（例如通过shell）仅限于本地文件和目录（如果我错了，请纠正我）

假设我们有一个名为

http://www.example.com

。我想得到它的URI页面列表（只是URL本身，而不是那些URL中的URL）——要么全部（包括所有子域和所有子页面），要么只是其中的一部分，前提是它们遵循特定的globbing和/或regex模式

例如，我正在寻找一种能够获取所有URL（仅URL地址本身）的方法，这些URL遵循一种模式，例如

http://*.example.com/*

。我知道Linux中的globbing（例如通过shell）仅限于本地文件和目录（如果我错了，请纠正我）

我怎样才能做到这一点

我想这里讨论的是一些相关的东西（虽然不完全相同）

p.S.所有URL都是仅由静态网页组成的网站的一部分。我不确定是否有可能对由动态网页组成的网站做同样的事情。。。此外，我不确定是否有任何URL中包含查询字符串（例如

http://www.example.com/?=abc&xyz

）完全可以用这种方式捕捉。

我没有完全理解这个问题。。你能举个更详细的例子吗？@Bozho嗯，很简单。它要么获取特定域（包括其子域）所有页面的所有URL地址（而不是这些URL的内容，只是网址本身），要么基于regex-/globbing-like模式获取其中一些URL。那么你想对其进行爬网吗？@Bozho是的，但只获取特定域的所有URL，不是他们的内容。web抓取部分将通过使用这些已爬网URL的列表来完成。欢迎任何解决方案！：）另外，唯一的要求是能够使用globbing/regex（-like）模式匹配来限制我想从web域获取的URL。