Hadoop 使用pig查找pig表中每列中存在的所有数据的最大值_Hadoop_Apache Pig_Bigdata

Hadoop 使用pig查找pig表中每列中存在的所有数据的最大值

hadoop apache-pig

Hadoop 使用pig查找pig表中每列中存在的所有数据的最大值,hadoop,apache-pig,bigdata,Hadoop,Apache Pig,Bigdata,输入格式： Year_2010 , Year_2009, Year_2008 1.2, 2.4, 3.5 3.4, 3.8, 5.7 4.5, 5.6, 3.4 3.7, 2.6, 4.8 我已经尝试了以下脚本，它适用于1列 A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); B = group A ALL; max = Foreach B

输入格式：

Year_2010 , Year_2009, Year_2008

1.2, 2.4, 3.5
3.4, 3.8, 5.7
4.5, 5.6, 3.4
3.7, 2.6, 4.8

我已经尝试了以下脚本，它适用于1列

A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); 
B = group A ALL; 
max = Foreach B generate group,MAX(A.Year_2010);

预期产出：

Year_2010, Year_2009, Year_2008

4.5, 5.6, 5.7

在对列应用最大值之前，请查看.GROUP

A = Load '/Year.csv' Using PigStorage(',') as (Year_2010:double,Year_2009:double,Year_2008:double); 
B = GROUP A ALL;
C = FOREACH B GENERATE MAX(A.Year_2010),MAX(A.Year_2009),MAX(A.Year_2008);
DUMP C;

输出：

A=加载“/Year.csv”，使用PigStorage（“，”）作为（2010年：双精度，2009年：双精度，2008年：双精度）；B=A组ALL；max=每个B生成组的最大值（A.Year\u 2010）；我知道这适用于一列，但在三列中找到它时，我不确定要尝试什么。这是一个开始，您走在正确的轨道上。只需为所有列应用最大值。得到如下错误：错误：无法推断将org.apache.pig.builtin.MAX的函数匹配为多个或不匹配。请使用显式强制转换。请检查您的数据，看起来在“，”之后有空格。请检查正在加载的数据类型。它必须是双精度的。MAX也应该是大写的。使用“C”而不是MAX表示关系