Performance 启用动态分配的spark上配置单元任务数的确定因素
我们使用spark上的配置单元进行了大量查询,并启用了动态分配,这些查询在具有相同配置的不同环境中运行 对于不同的环境,内核和内存的数量是不同的。进一步检查后,阶段中的任务数量也在变化。奇怪的是,具有相同筛选条件的记录数较少的表的任务数大于不同环境中具有更多记录的相同查询的任务数 在选中“环境”选项卡时,属性完全相似 对于记录数较少的表,是否有任何方法可以确定决定任务数的因素以及相同筛选条件下任务数较多的原因Performance 启用动态分配的spark上配置单元任务数的确定因素,performance,apache-spark,hive,yarn,cloudera,Performance,Apache Spark,Hive,Yarn,Cloudera,我们使用spark上的配置单元进行了大量查询,并启用了动态分配,这些查询在具有相同配置的不同环境中运行 对于不同的环境,内核和内存的数量是不同的。进一步检查后,阶段中的任务数量也在变化。奇怪的是,具有相同筛选条件的记录数较少的表的任务数大于不同环境中具有更多记录的相同查询的任务数 在选中“环境”选项卡时,属性完全相似 对于记录数较少的表,是否有任何方法可以确定决定任务数的因素以及相同筛选条件下任务数较多的原因