Hadoop MultiTableInputFormat用于比较2个表格,耗时约80分钟
我正在使用Hbase MultiTableInputFormat比较两个表:表1(700万)和表2(3000万) 在驱动程序中,我传递到扫描(没有任何过滤器)。在我的映射器中,我正在进行比较,并在Reducer中编写摘要Hadoop MultiTableInputFormat用于比较2个表格,耗时约80分钟,hadoop,mapreduce,hbase,Hadoop,Mapreduce,Hbase,我正在使用Hbase MultiTableInputFormat比较两个表:表1(700万)和表2(3000万) 在驱动程序中,我传递到扫描(没有任何过滤器)。在我的映射器中,我正在进行比较,并在Reducer中编写摘要 任何特定于此场景的设置都可能会加快此过程。谢谢。您是否使用了扫描仪缓存,它可以提高性能- 示例-scan.setCaching(1000)
任何特定于此场景的设置都可能会加快此过程。谢谢。您是否使用了扫描仪缓存,它可以提高性能- 示例-scan.setCaching(1000)