Hadoop 纱线容器尺寸和Tez容器管理

Hadoop 纱线容器尺寸和Tez容器管理,hadoop,hive,containers,yarn,tez,Hadoop,Hive,Containers,Yarn,Tez,我有一个集群,拥有大约15 TB的纱线资源。我正在尝试通过配置单元提交查询。我的默认容器大小为4GB。为该查询分配的映射者数量约为1000。我的纱线队列中总共分配了10%的资源。因此,在单个时间点仅分配430个容器。每个映射器总共分配一个容器。HDFS上的块大小为128 MB。如何选择查询的大小。您提到了内存设置,听起来不错,因此您接下来优化查询的步骤(因为您没有给出)如下所示: 使HDFS输入文件的大小接近HDFS块的大小 如果您的队列已满,请使用其他队列。(设置tez.queue.nam

我有一个集群,拥有大约15 TB的纱线资源。我正在尝试通过配置单元提交查询。我的默认容器大小为4GB。为该查询分配的映射者数量约为1000。我的纱线队列中总共分配了10%的资源。因此,在单个时间点仅分配430个容器。每个映射器总共分配一个容器。HDFS上的块大小为128 MB。如何选择查询的大小。

您提到了内存设置,听起来不错,因此您接下来优化查询的步骤(因为您没有给出)如下所示:

  • 使HDFS输入文件的大小接近HDFS块的大小
  • 如果您的队列已满,请使用其他队列。(
    设置tez.queue.name
  • 根据
    WHERE
    子句在最有意义的列上对配置单元表进行分区
  • 确保数据存储为ORC w/ZLib压缩
  • 如果可能,使用LLAP

您已经提到了内存设置,听起来不错,所以接下来优化查询的步骤(因为您没有给出)如下

  • 使HDFS输入文件的大小接近HDFS块的大小
  • 如果您的队列已满,请使用其他队列。(
    设置tez.queue.name
  • 根据
    WHERE
    子句在最有意义的列上对配置单元表进行分区
  • 确保数据存储为ORC w/ZLib压缩
  • 如果可能,使用LLAP