在PB级数据上验证复杂SQL的方法有哪些?

在PB级数据上验证复杂SQL的方法有哪些?,sql,validation,hive,data-processing,Sql,Validation,Hive,Data Processing,我正在编写一个相当长的SQL脚本,实现其他业务逻辑。它运行在Apache Hive中PB大小的数据上 由于它会随着时间的推移跟踪变化,所以我在验证此过程是否正常工作的最佳方法上遇到了难题。如果是较小的数据,我将能够根据行大小、增长率和更仔细地查看结果行来获得某种准确性。然而,对于如此大的数据,这是不实际的。理论上,我也可以挑选一些ID并进行抽查,但这很可能会遗漏边缘案例或不太明显的bug 我可以使用什么方法来以更健壮的方式测试我的SQL代码,尽管大小不同?有没有为SQL编写单元测试的概念(如果有

我正在编写一个相当长的SQL脚本,实现其他业务逻辑。它运行在Apache Hive中PB大小的数据上

由于它会随着时间的推移跟踪变化,所以我在验证此过程是否正常工作的最佳方法上遇到了难题。如果是较小的数据,我将能够根据行大小、增长率和更仔细地查看结果行来获得某种准确性。然而,对于如此大的数据,这是不实际的。理论上,我也可以挑选一些ID并进行抽查,但这很可能会遗漏边缘案例或不太明显的bug

我可以使用什么方法来以更健壮的方式测试我的SQL代码,尽管大小不同?有没有为SQL编写单元测试的概念(如果有,那会是什么样子)