Hadoop PIGLatin如何将2个CSV与太多的行和列进行比较_Hadoop_Apache Pig

Hadoop PIGLatin如何将2个CSV与太多的行和列进行比较

hadoop apache-pig

Hadoop PIGLatin如何将2个CSV与太多的行和列进行比较,hadoop,apache-pig,Hadoop,Apache Pig,我有一个关于PIG的场景，比较2个CSV文件。基本上，它应该做的是读取2个CSV文件，相互比较，并创建一个日志文件，其中包含不同值的行号和列号（如果可能）样本输出：找到1个不同的值：世界其他地区：8764 栏目：67 预计：8984954 实际：0 PIG中有没有办法做到这一点？有没有通用键？或者一个行号？如果你有一些像行号这样的公用键，你可以基于它连接读文件，然后写一个UDF来比较这两行并输出它们不同的列。然后，在最后过滤带有更改的行并输出这些行。对于给定的示例，没有公共键。

我有一个关于PIG的场景，比较2个CSV文件。基本上，它应该做的是读取2个CSV文件，相互比较，并创建一个日志文件，其中包含不同值的行号和列号（如果可能）

样本输出：

找到1个不同的值：

世界其他地区：8764

栏目：67

预计：8984954

实际：0

PIG中有没有办法做到这一点？

有没有通用键？或者一个行号？如果你有一些像行号这样的公用键，你可以基于它连接读文件，然后写一个UDF来比较这两行并输出它们不同的列。然后，在最后过滤带有更改的行并输出这些行。对于给定的示例，没有公共键。