Hadoop 为了加快蜂巢进程，如何使用tez调整映射器和还原器的数量_Hadoop_Hive_Apache Tez

Hadoop 为了加快蜂巢进程，如何使用tez调整映射器和还原器的数量

hadoop hive

Hadoop 为了加快蜂巢进程，如何使用tez调整映射器和还原器的数量,hadoop,hive,apache-tez,Hadoop,Hive,Apache Tez,我试着用tez对150GB左右的大数据语句进行processword标记，但问题是它花费了1周或更长的时间，然后我试图指定映射器的数量。虽然我设置mapred.map.tasks=2000，但我不能阻止mapper被设置为150左右，所以我不能做我想做的事我在oozie工作流文件中指定map值并使用tez 如何指定映射器的数量最后我想加快这个过程，不用tez也可以另外，我想用减缩器数一数带标签的句子，这也需要很多时间而且，我还想知道如何调整内存大小以使用每个映射器和减速机进程为

我试着用tez对150GB左右的大数据语句进行processword标记，但问题是它花费了1周或更长的时间，然后

我试图指定映射器的数量。虽然我设置mapred.map.tasks=2000，但我不能阻止mapper被设置为150左右，所以我不能做我想做的事

我在oozie工作流文件中指定map值并使用tez

如何指定映射器的数量

最后我想加快这个过程，不用tez也可以

另外，我想用减缩器数一数带标签的句子，这也需要很多时间

而且，我还想知道如何调整内存大小以使用每个映射器和减速机进程

为了在TEZ是执行引擎时手动设置配置单元查询中的映射器数量，可以使用configuration TEZ.grouping.split-count

。。。set tez.grouping.split count=4将创建4个映射器

但是，总的来说，您应该在开始之前优化存储格式和配置单元分区。不要尝试处理配置单元中以文本形式存储的数据。首先将其转换为兽人或拼花地板

如果Tez不适合你，你可以试试Spark。加上给句子加上标签可能是你可以在某处找到的一个火花MLlib worlflow

mapred.map.tasks对Tez没有任何作用，因为它不是运行的MR-Hive引擎。另外，该属性不受欢迎请参见以下答案：您知道如何调整缩减器的数量和分配的内存大小吗？mapreduce.job.reduces和控制映射器容器的相同内存设置应该控制缩减器