Regex Import.io-用于“导入”的URL模式;从何处提取数据;优化

Regex Import.io-用于“导入”的URL模式;从何处提取数据;优化,regex,web-crawler,import.io,Regex,Web Crawler,Import.io,当使用Import.io进行爬网时,我们有一个高级选项来设置URL模式,以确定页面是否应该提取数据 我习惯于使用正则表达式,所以我很难使用Import.io URL模式 正则表达式中的模式是 http://www.site.com/.[0-9]+.html 如何使用Import.io模式实现这一点? 我尝试了以下方法,但无效: www.site.com/{any}{num}.html 应提取的一些示例: www.site.com/foo/bar/foo234.html www.site.com

当使用Import.io进行爬网时,我们有一个高级选项来设置URL模式,以确定页面是否应该提取数据

我习惯于使用正则表达式,所以我很难使用Import.io URL模式

正则表达式中的模式是

http://www.site.com/.[0-9]+.html

如何使用Import.io模式实现这一点?

我尝试了以下方法,但无效:

www.site.com/{any}{num}.html

应提取的一些示例:

  • www.site.com/foo/bar/foo234.html
  • www.site.com/bla890.html
  • www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html
以下是Import.io符号:

  • {any}- 任何东西(不包括任何东西){num}- 一个数字,例如8767
  • {alpha}- a-z字符,例如狗{alpha num}- 阿尔法或 数值,例如435h5k
  • {words num}- 包含分隔数字的单词 通过-、u或+,例如,这是第二个示例
  • {不是斜杠}- 任何东西 除了斜线
  • {uuid}- UUID,例如。 439a110f-bba1-46a5-befd-1f32cfb63dc8
  • {查询字符串}- 质询 字符串,例如?a=1&b=2%c=3
  • {查询参数}- 部分查询字符串, e、 g.a=1和b=2
  • {ref}- 参考,也称为锚, e、 g.#福$ - 匹配URL的结尾
更多详情:

谢谢