Regex 正则表达式以排除pig中的文件
嗨,我正在使用Pig将文件夹中的文件加载到HDFS中进行处理。文件夹名称的格式为MM dd yyyy。比如说Regex 正则表达式以排除pig中的文件,regex,hadoop,apache-pig,Regex,Hadoop,Apache Pig,嗨,我正在使用Pig将文件夹中的文件加载到HDFS中进行处理。文件夹名称的格式为MM dd yyyy。比如说 /Test/02-10-2016/file1 /Test/02-11-2016/file2 /Test/20-12-2016/file3 同样,测试文件夹包括日期从2015年1月1日到2016年12月20日。加载此文件夹时,我想排除一些日期文件,如02-10-2016,02-09-2016 我知道我们可以在load语句中使用regex,比如 ex = load '/TEST/*';
/Test/02-10-2016/file1
/Test/02-11-2016/file2
/Test/20-12-2016/file3
同样,测试文件夹包括日期从2015年1月1日到2016年12月20日。加载此文件夹时,我想排除一些日期文件,如02-10-2016,02-09-2016
我知道我们可以在load语句中使用regex,比如
ex = load '/TEST/*';
像这样,如何使用正则表达式排除load语句中的某些文件?一些有效日期和无效日期的示例将是有益的。这被认为是全局的,而不是正则表达式的可解释副本