Regex Import.io-用于“导入”的URL模式;从何处提取数据;优化
当使用Import.io进行爬网时,我们有一个高级选项来设置URL模式,以确定页面是否应该提取数据 我习惯于使用正则表达式,所以我很难使用Import.io URL模式 正则表达式中的模式是 http://www.site.com/.[0-9]+.html 如何使用Import.io模式实现这一点? 我尝试了以下方法,但无效: www.site.com/{any}{num}.html 应提取的一些示例:Regex Import.io-用于“导入”的URL模式;从何处提取数据;优化,regex,web-crawler,import.io,Regex,Web Crawler,Import.io,当使用Import.io进行爬网时,我们有一个高级选项来设置URL模式,以确定页面是否应该提取数据 我习惯于使用正则表达式,所以我很难使用Import.io URL模式 正则表达式中的模式是 http://www.site.com/.[0-9]+.html 如何使用Import.io模式实现这一点? 我尝试了以下方法,但无效: www.site.com/{any}{num}.html 应提取的一些示例: www.site.com/foo/bar/foo234.html www.site.com
- www.site.com/foo/bar/foo234.html
- www.site.com/bla890.html
- www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html
- {any}- 任何东西(不包括任何东西){num}- 一个数字,例如8767
- {alpha}- a-z字符,例如狗{alpha num}- 阿尔法或 数值,例如435h5k李>
- {words num}- 包含分隔数字的单词 通过-、u或+,例如,这是第二个示例李>
- {不是斜杠}- 任何东西 除了斜线李>
- {uuid}- UUID,例如。 439a110f-bba1-46a5-befd-1f32cfb63dc8李>
- {查询字符串}- 质询 字符串,例如?a=1&b=2%c=3
- {查询参数}- 部分查询字符串, e、 g.a=1和b=2李>
- {ref}- 参考,也称为锚, e、 g.#福$ - 匹配URL的结尾