Hadoop 纱线容器尺寸和Tez容器管理
我有一个集群,拥有大约15 TB的纱线资源。我正在尝试通过配置单元提交查询。我的默认容器大小为4GB。为该查询分配的映射者数量约为1000。我的纱线队列中总共分配了10%的资源。因此,在单个时间点仅分配430个容器。每个映射器总共分配一个容器。HDFS上的块大小为128 MB。如何选择查询的大小。您提到了内存设置,听起来不错,因此您接下来优化查询的步骤(因为您没有给出)如下所示:Hadoop 纱线容器尺寸和Tez容器管理,hadoop,hive,containers,yarn,tez,Hadoop,Hive,Containers,Yarn,Tez,我有一个集群,拥有大约15 TB的纱线资源。我正在尝试通过配置单元提交查询。我的默认容器大小为4GB。为该查询分配的映射者数量约为1000。我的纱线队列中总共分配了10%的资源。因此,在单个时间点仅分配430个容器。每个映射器总共分配一个容器。HDFS上的块大小为128 MB。如何选择查询的大小。您提到了内存设置,听起来不错,因此您接下来优化查询的步骤(因为您没有给出)如下所示: 使HDFS输入文件的大小接近HDFS块的大小 如果您的队列已满,请使用其他队列。(设置tez.queue.nam
- 使HDFS输入文件的大小接近HDFS块的大小李>
- 如果您的队列已满,请使用其他队列。(
)设置tez.queue.name
- 根据
子句在最有意义的列上对配置单元表进行分区李>WHERE
- 确保数据存储为ORC w/ZLib压缩李>
- 如果可能,使用LLAP
- 使HDFS输入文件的大小接近HDFS块的大小李>
- 如果您的队列已满,请使用其他队列。(
)设置tez.queue.name
- 根据
子句在最有意义的列上对配置单元表进行分区李>WHERE
- 确保数据存储为ORC w/ZLib压缩李>
- 如果可能,使用LLAP