Hadoop 如何使用pig中的参数拆分数据_Hadoop_Apache Pig

Hadoop 如何使用pig中的参数拆分数据

hadoop apache-pig

Hadoop 如何使用pig中的参数拆分数据,hadoop,apache-pig,Hadoop,Apache Pig,我有以下每个部门的数据 1,IT,100 2,HR,244 3,AC,345 4,IT,654 5,HR,856 6,AC,545 7,IT,769 8,AC,423 9,HR,908 我需要根据部门名称将数据拆分为部门代码：它的工作很好，但现在我需要使它通用，以便如果任何新的部门来，然后我不需要对代码做任何更改。大概是这样的： split data into ('$dept'_data if dept=='$dept'); 我试图修改上述代码，如下所示： data = LOAD

我有以下每个部门的数据

1,IT,100
2,HR,244
3,AC,345
4,IT,654
5,HR,856
6,AC,545
7,IT,769
8,AC,423
9,HR,908

我需要根据部门名称将数据拆分为部门代码：

它的工作很好，但现在我需要使它通用，以便如果任何新的部门来，然后我不需要对代码做任何更改。大概是这样的：

split data into ('$dept'_data  if dept=='$dept');

我试图修改上述代码，如下所示：

data = LOAD '/user/dept_data.txt' USING PigStorage(',') as (id:int,dept:chararray,count:int);

depts = foreach data generate dept as dept;

distinct_dept= distinct depts;

split data into 'distinct_dept.dept'_data if dept=='distinct_dept.dept';

它不起作用

如何实现相同的目标？

可能重复如果目标是在拆分后存储数据，则上面的链接应该有帮助，如果需要进一步处理以生成KPI，则我们可以按部门分组并进一步使用它。可能重复如果目标是在拆分后存储数据，则上面的链接应该有帮助，如果需要进一步处理以生成KPI，则我们可以按部门分组并进一步使用它。

data = LOAD '/user/dept_data.txt' USING PigStorage(',') as (id:int,dept:chararray,count:int);

depts = foreach data generate dept as dept;

distinct_dept= distinct depts;

split data into 'distinct_dept.dept'_data if dept=='distinct_dept.dept';