Hadoop Paquet联接列(即键)的数据类型选择
对于RDBMS,我们通常使用数值列作为键(外部和主键),因为在大多数情况下,与其他数据类型(如字符串)相比,它允许更好的联合查询性能和更小的资源使用 问题是,拼花地板表中关键列的数据类型应该是什么?我们可以这样做吗:Hadoop Paquet联接列(即键)的数据类型选择,hadoop,model,parquet,database-tuning,Hadoop,Model,Parquet,Database Tuning,对于RDBMS,我们通常使用数值列作为键(外部和主键),因为在大多数情况下,与其他数据类型(如字符串)相比,它允许更好的联合查询性能和更小的资源使用 问题是,拼花地板表中关键列的数据类型应该是什么?我们可以这样做吗: SELECT * FROM parquet_table1 JOIN parquet_table2 ON t1_string_pk = t2_string_fk 这里的最佳做法是什么? 这个问题的原因是,当将数据加载到数据仓库中时,任何数字键列(对于目标表)都需要键表查找([源系统
SELECT * FROM parquet_table1 JOIN parquet_table2 ON t1_string_pk = t2_string_fk
这里的最佳做法是什么?
这个问题的原因是,当将数据加载到数据仓库中时,任何数字键列(对于目标表)都需要键表查找([源系统,源键]->代理键),而字符串键列不需要;我们可以使用源键连接来获得字符串代理键值