Hadoop 使用Pig将非结构化数据转换为结构化数据
我正在尝试使用PIG来构造非结构化数据,以便进行一些处理 以下是数据示例:Hadoop 使用Pig将非结构化数据转换为结构化数据,hadoop,apache-pig,Hadoop,Apache Pig,我正在尝试使用PIG来构造非结构化数据,以便进行一些处理 以下是数据示例: Nov 1 18:23:34 dev_id=03 user_id=000 int_ip=198.0.13.24 ext_ip=68.67.0.14 src_port=99 dest_port=213 response_code=5 预期输出: Nov 1 18:23:34, 03 , 000, 198.0.13.24, 68.67.0.14, 99, 213, 5 (Nov,1,18:23:3
Nov 1 18:23:34 dev_id=03 user_id=000 int_ip=198.0.13.24 ext_ip=68.67.0.14 src_port=99 dest_port=213 response_code=5
预期输出:
Nov 1 18:23:34, 03 , 000, 198.0.13.24, 68.67.0.14, 99, 213, 5
(Nov,1,18:23:34,dev_id=03,user_id=000,int_ip=198.0.13.24,ext_ip=68.67.0.14,src_port=99,dest_port=213,response_code=5)
正如我们所看到的,数据没有正确地分开(如制表符或逗号),所以我尝试使用“\t”加载数据并转储到终端上
A = LOAD '----' using PigStorage('\t') as (mnth: chararray, day: int, --------);
dump A;
Store A into '\root\output';
输出:
Nov 1 18:23:34, 03 , 000, 198.0.13.24, 68.67.0.14, 99, 213, 5
(Nov,1,18:23:34,dev_id=03,user_id=000,int_ip=198.0.13.24,ext_ip=68.67.0.14,src_port=99,dest_port=213,response_code=5)
转储输出:
Nov 1 18:23:34, 03 , 000, 198.0.13.24, 68.67.0.14, 99, 213, 5
(Nov,1,18:23:34,dev_id=03,user_id=000,int_ip=198.0.13.24,ext_ip=68.67.0.14,src_port=99,dest_port=213,response_code=5)
商店专柜:
结果以与输入相同的方式存储,而不是以转储(逗号分隔)的方式存储
备选方案:我还尝试使用DataStorage()作为(value:varchar)加载数据,并执行了标记化,但无法实现目标
我还需要一些建议:
A = LOAD '----' using PigStorage('\t') as (mnth: chararray, day: int, dev: chararray, user: chararray --------);
B = foreach A generate REGEX_EXTRACT_All(devid, userid, '(^.*=(.*)$) (^.*=(.*)$)');
Dump B;
我得到一个错误:
Error: ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070: Could not resolve REGEX_EXTRACT_All using imports.
我们可以使用REGEX_extract_All提取多个字段。只需为您的数据编写一个自定义加载程序,您的所有问题都可以用java轻松解决。 我们可以找到一步一步地这样做的例子 因为我存储了3个字段,分别是月:“11”、日“1”和时间:“18:23:34”。是否可以将所有三个字段作为时间加入:“11月1日18:23:34” 您可以使用将
FOREACH
中的两个字符串接在一起。在这种情况下(这有点尴尬,也许有人可以建议一种不需要UDF的替代方案):
所有存储有dev_id=03、user_id=000等信息的数据,但我需要删除这些信息并存储03000198.0.13.24等信息 您应该使用,它提取给定正则表达式的一段文本。在
FOREACH
中使用它。构建一个正则表达式,它捕获=
之后的所有内容。在这种情况下:
REGEX_EXTRACT(field2, '^.*=(.*)$', 1);
其他一些选择:
- 编写自己的自定义Java存储函数以在Java中进行解析
- 编写UDF(python、java等)来执行上述操作,而不是
和嵌套的REGEX\u EXTRACT
CONCAT
- 将整个行作为一个字符加载,然后将其传递到执行所有解析的UDF中,并返回结果。此UDF被放入一个
。与编写自定义存储函数相比,我更喜欢它,因为我认为它更容易一些FOREACH
*
REGEX\u EXTRACT
。多列不可能吗?内置功能。我尝试将所有样本数据加载为chararray,然后再加载REGEX_EXTRACT_all('value','(^.*=(.*)$);但得到了空输出。不。这不是pig的工作方式。REGEX_EXTRACT(field1,'REGEX')、REGEX_EXTRACT(field2,'REGEX')),…
非常感谢您的建议,对于单列,它工作得非常完美。我还需要一个关于连接提取字段的建议。因为我们可以提取每个字段并存储在字段1的a、字段2的B等中。我们如何连接所有这些字段,至于连接转换,我们需要一个匹配的列,但每个字段中只有一列领域