Hadoop 使用pig查找pig表中每列中存在的所有数据的最大值

Hadoop 使用pig查找pig表中每列中存在的所有数据的最大值,hadoop,apache-pig,bigdata,Hadoop,Apache Pig,Bigdata,输入格式: Year_2010 , Year_2009, Year_2008 1.2, 2.4, 3.5 3.4, 3.8, 5.7 4.5, 5.6, 3.4 3.7, 2.6, 4.8 我已经尝试了以下脚本,它适用于1列 A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); B = group A ALL; max = Foreach B

输入格式:

Year_2010 , Year_2009, Year_2008

1.2, 2.4, 3.5
3.4, 3.8, 5.7
4.5, 5.6, 3.4
3.7, 2.6, 4.8
我已经尝试了以下脚本,它适用于1列

A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); 
B = group A ALL; 
max = Foreach B generate group,MAX(A.Year_2010); 
预期产出:

Year_2010, Year_2009, Year_2008

4.5, 5.6, 5.7
在对列应用最大值之前,请查看.GROUP

A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); 
B = GROUP A ALL;
C = FOREACH B GENERATE MAX(A.Year_2010),MAX(A.Year_2009),MAX(A.Year_2008);
DUMP C;
输出:


A=加载“/Year.csv”,使用PigStorage(“,”)作为(2010年:双精度,2009年:双精度,2008年:双精度);B=A组ALL;max=每个B生成组的最大值(A.Year\u 2010);我知道这适用于一列,但在三列中找到它时,我不确定要尝试什么。这是一个开始,您走在正确的轨道上。只需为所有列应用最大值。得到如下错误:错误:无法推断将org.apache.pig.builtin.MAX的函数匹配为多个或不匹配。请使用显式强制转换。请检查您的数据,看起来在“,”之后有空格。请检查正在加载的数据类型。它必须是双精度的。MAX也应该是大写的。使用“C”而不是MAX表示关系