Regex Import.io-用于“导入”的URL模式；从何处提取数据；优化_Regex_Web Crawler_Import.io

Regex Import.io-用于“导入”的URL模式；从何处提取数据；优化

regex web-crawler

Regex Import.io-用于“导入”的URL模式；从何处提取数据；优化,regex,web-crawler,import.io,Regex,Web Crawler,Import.io,当使用Import.io进行爬网时，我们有一个高级选项来设置URL模式，以确定页面是否应该提取数据我习惯于使用正则表达式，所以我很难使用Import.io URL模式正则表达式中的模式是 http://www.site.com/.[0-9]+.html 如何使用Import.io模式实现这一点？我尝试了以下方法，但无效： www.site.com/{any}{num}.html 应提取的一些示例： www.site.com/foo/bar/foo234.html www.site.com

当使用Import.io进行爬网时，我们有一个高级选项来设置URL模式，以确定页面是否应该提取数据

我习惯于使用正则表达式，所以我很难使用Import.io URL模式

正则表达式中的模式是

http://www.site.com/.[0-9]+.html

如何使用Import.io模式实现这一点？

我尝试了以下方法，但无效：

www.site.com/{any}{num}.html

应提取的一些示例：

www.site.com/foo/bar/foo234.html
www.site.com/bla890.html
www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html

以下是Import.io符号：

{any}- 任何东西（不包括任何东西）{num}- 一个数字，例如8767
{alpha}- a-z字符，例如狗{alpha num}- 阿尔法或数值，例如435h5k
{words num}- 包含分隔数字的单词通过-、u或+，例如，这是第二个示例
{不是斜杠}- 任何东西除了斜线
{uuid}- UUID，例如。 439a110f-bba1-46a5-befd-1f32cfb63dc8
{查询字符串}- 质询字符串，例如？a=1&b=2%c=3
{查询参数}- 部分查询字符串， e、 g.a=1和b=2
{ref}- 参考，也称为锚， e、 g.#福$ - 匹配URL的结尾

更多详情：

谢谢