Filter 按字符串列表筛选
我有一个包含URL的文件 和3个包含URL的文件,我想看看它们是否存在于第一个文件中 第一个文件的示例是 , 过滤器文件的示例: 过滤器1 url1.com url2.com 过滤器2 url5.com url6.com/ddfd urlx.org 我想做的是,在同一过程中(如果可能的话),检查过滤器1中的任何url或过滤器2中的任何url等是否在第一个文件中,以及是否将匹配写入以该过滤器命名的文件(过滤器名称无关)。 每个过滤器的重要信息 输出将是这样的 过滤掉 http://www.url1.com/xxx/sssFilter 按字符串列表筛选,filter,apache-pig,Filter,Apache Pig,我有一个包含URL的文件 和3个包含URL的文件,我想看看它们是否存在于第一个文件中 第一个文件的示例是 , 过滤器文件的示例: 过滤器1 url1.com url2.com 过滤器2 url5.com url6.com/ddfd urlx.org 我想做的是,在同一过程中(如果可能的话),检查过滤器1中的任何url或过滤器2中的任何url等是否在第一个文件中,以及是否将匹配写入以该过滤器命名的文件(过滤器名称无关)。 每个过滤器的重要信息 输出将是这样的 过滤掉 http://www.url
http://www.url2.com/xxx/xxxx/xxxx我将从较高的层次描述我会在你的鞋子里做什么:
我会给你一个高层次的描述,我会做你的鞋:
假设筛选文件适合计算节点上的内存-使用Perl或其他常用语言进行匹配,并通过此筛选流式传输数据,例如:
DEFINE MY_FILTER ` perl $script $filter1 $filter2 filter3 ` SHIP('$script','$filter1', '$filter2', '$filter3');
A = load '$input';
B = stream A through MY_FILTER;
store B into '$output';
这是一次性的。
从定义$filter和其他参数的bash脚本调用此Pig脚本。
在$script中实现字符串匹配和输出,该脚本将加载$filter1、$filter2和$filter3,从STDIN进行匹配,并以所需格式生成输出。假设筛选文件适合计算节点上的内存-使用Perl或其他常用语言进行匹配,并通过此筛选器传输数据,例如:
DEFINE MY_FILTER ` perl $script $filter1 $filter2 filter3 ` SHIP('$script','$filter1', '$filter2', '$filter3');
A = load '$input';
B = stream A through MY_FILTER;
store B into '$output';
这是一次性的。
从定义$filter和其他参数的bash脚本调用此Pig脚本。
在$script中实现字符串匹配和输出,该脚本将加载$filter1、$filter2和$filter3,从STDIN进行匹配并以所需格式生成输出。请发布您迄今为止尝试的内容。请发布您迄今为止尝试的内容。