Hadoop PIGLatin如何将2个CSV与太多的行和列进行比较

Hadoop PIGLatin如何将2个CSV与太多的行和列进行比较,hadoop,apache-pig,Hadoop,Apache Pig,我有一个关于PIG的场景,比较2个CSV文件。基本上,它应该做的是读取2个CSV文件,相互比较,并创建一个日志文件,其中包含不同值的行号和列号(如果可能) 样本输出: 找到1个不同的值: 世界其他地区:8764 栏目:67 预计:8984954 实际:0 PIG中有没有办法做到这一点?有没有通用键?或者一个行号?如果你有一些像行号这样的公用键,你可以基于它连接读文件,然后写一个UDF来比较这两行并输出它们不同的列。然后,在最后过滤带有更改的行并输出这些行。对于给定的示例,没有公共键。

我有一个关于PIG的场景,比较2个CSV文件。基本上,它应该做的是读取2个CSV文件,相互比较,并创建一个日志文件,其中包含不同值的行号和列号(如果可能)

样本输出:

找到1个不同的值:

世界其他地区:8764

栏目:67

预计:8984954

实际:0


PIG中有没有办法做到这一点?

有没有通用键?或者一个行号?如果你有一些像行号这样的公用键,你可以基于它连接读文件,然后写一个UDF来比较这两行并输出它们不同的列。然后,在最后过滤带有更改的行并输出这些行。对于给定的示例,没有公共键。