Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/355.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/google-chrome/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在python中执行AVRO Diff(两个AVRO文件之间的差异)_Python_Avro - Fatal编程技术网

如何在python中执行AVRO Diff(两个AVRO文件之间的差异)

如何在python中执行AVRO Diff(两个AVRO文件之间的差异),python,avro,Python,Avro,这个问题在某种程度上得到了回答: 但是,我想检查是否有更简单的方法在Python中创建一个函数,该函数包含两个AVRO文件,比较它们并确定它们是否相同或不同。我知道需要检查模式,然后检查内容 -->您要在哪里运行此程序? -->它是否位于安装了hive/pig的集群中? 如果您能够将这两个文件加载到pigscript中, group by和count of each line==2应该对您有所帮助,因为它们是否相同 如果不是集群,我将使用java来使用avroutil jar读取文件并开始迭代记

这个问题在某种程度上得到了回答:

但是,我想检查是否有更简单的方法在Python中创建一个函数,该函数包含两个AVRO文件,比较它们并确定它们是否相同或不同。我知道需要检查模式,然后检查内容

-->您要在哪里运行此程序? -->它是否位于安装了hive/pig的集群中? 如果您能够将这两个文件加载到pigscript中, group by和count of each line==2应该对您有所帮助,因为它们是否相同

如果不是集群,我将使用java来使用avroutil jar读取文件并开始迭代记录。[我不确定这种方法中数据文件的可伸缩性]


最好的方法是在包装程序中使用hive/pig来比较数据,这样既高效又可扩展

我认为没有一个预先创建的库可以与Avro对象进行比较,但是有很多库可以实现JSON。例如,您可以在java()中使用Jackson,也可以在python()中使用deepdiff。您可以将AVRO反序列化为JSON并应用其中一个

但是,正如Jijo所说,这取决于您在何处运行此程序以及您的性能要求