Hadoop 使用JOIN优化配置单元查询，拥有百万条记录_Hadoop_Hive

Hadoop 使用JOIN优化配置单元查询，拥有百万条记录

hadoop hive

Hadoop 使用JOIN优化配置单元查询，拥有百万条记录,hadoop,hive,Hadoop,Hive,我有两张桌子- bpm_agent_data - 40 Million records , 5 Columns bpm_loan_data - 20 Million records, 5 Columns 现在我在Hive中运行了一个查询- select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_dat

我有两张桌子-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

现在我在Hive中运行了一个查询-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

这需要很长时间才能完成。

在配置单元中编写查询的理想方式应该是什么，这样Reducer就不会占用这么多时间。

找到了上述查询的解决方案，替换为ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);