Performance 如何在配置单元中为左侧外部联接缓存内存中最左侧的表

Performance 如何在配置单元中为左侧外部联接缓存内存中最左侧的表,performance,hive,mapjoin,Performance,Hive,Mapjoin,我有一个大表(1Tb的数据),需要与一个较小的表(100k条记录)连接 在上述场景中,我无法控制哪些表必须缓存到内存中。我尝试过使用MAPJOIN、STREAMTABLE提示,也尝试过使用条件任务大小、小tbale大小等参数。由于小表位于连接的最左侧,因此它不会缓存到内存中 有没有办法控制需要缓存的表 注意:我无法更改表格位置或代码: 这里也没有 ……这里也不 使用的参数: set hive.execution.engine=tez; set hive.tez.container.size

我有一个大表(1Tb的数据),需要与一个较小的表(100k条记录)连接

在上述场景中,我无法控制哪些表必须缓存到内存中。我尝试过使用MAPJOIN、STREAMTABLE提示,也尝试过使用条件任务大小、小tbale大小等参数。由于小表位于连接的最左侧,因此它不会缓存到内存中

有没有办法控制需要缓存的表

注意:我无法更改表格位置或代码:
这里也没有

……这里也不

使用的参数:

set hive.execution.engine=tez; 
set hive.tez.container.size=4096; 
set hive.merge.mapredfiles=true; 
set tez.shuffle-vertex-manager.min-src-fraction=0.25; 
set tez.shuffle-vertex-manager.max-src-fraction=0.75; 
set hive.exec.dynamic.partition.mode=nonstrict; 
set tez.am.resource.memory.mb=3200 ; 
set tez.am.java.opts=-server -Xmx3200m -Djava.net.preferIPv4Stack=true -XX:+UseNUMA -XX:+UseParallelGC -XX:+UseConcMarkSweepGC ; 
SET hive.auto.convert.join=true; 
set hive.auto.convert.join.noconditionaltask.size=288435456;

如果我更改了表的位置,则会启用映射联接从大表中选择st.id lt LEFT join small\u table st ON st.id=lt.idPlease add parameters usedset hive.execution.engine=tez;设置hive.tez.container.size=4096;设置hive.merge.mapredfiles=true;设置tez.shuffle顶点管理器。最小src分数=0.25;设置tez.shuffle顶点管理器。最大src分数=0.75;设置hive.exec.dynamic.partition.mode=nonstrict;设置tez.am.resource.memory.mb=3200;set tez.am.java.opts=-server-Xmx3200m-Djava.net.preferIPv4Stack=true-XX:+UseNUMA-XX:+UseParallelGC-XX:+useConMarkSweepGC;设置hive.auto.convert.join=true;设置hive.auto.convert.join.noconditionaltask.size=288435456;如果我更改了表的位置,则会启用映射联接从大表中选择st.id lt LEFT join small\u table st ON st.id=lt.idPlease add parameters usedset hive.execution.engine=tez;设置hive.tez.container.size=4096;设置hive.merge.mapredfiles=true;设置tez.shuffle顶点管理器。最小src分数=0.25;设置tez.shuffle顶点管理器。最大src分数=0.75;设置hive.exec.dynamic.partition.mode=nonstrict;设置tez.am.resource.memory.mb=3200;set tez.am.java.opts=-server-Xmx3200m-Djava.net.preferIPv4Stack=true-XX:+UseNUMA-XX:+UseParallelGC-XX:+useConMarkSweepGC;设置hive.auto.convert.join=true;设置hive.auto.convert.join.noconditionaltask.size=288435456;
set hive.execution.engine=tez; 
set hive.tez.container.size=4096; 
set hive.merge.mapredfiles=true; 
set tez.shuffle-vertex-manager.min-src-fraction=0.25; 
set tez.shuffle-vertex-manager.max-src-fraction=0.75; 
set hive.exec.dynamic.partition.mode=nonstrict; 
set tez.am.resource.memory.mb=3200 ; 
set tez.am.java.opts=-server -Xmx3200m -Djava.net.preferIPv4Stack=true -XX:+UseNUMA -XX:+UseParallelGC -XX:+UseConcMarkSweepGC ; 
SET hive.auto.convert.join=true; 
set hive.auto.convert.join.noconditionaltask.size=288435456;