Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 为了加快蜂巢进程,如何使用tez调整映射器和还原器的数量_Hadoop_Hive_Apache Tez - Fatal编程技术网

Hadoop 为了加快蜂巢进程,如何使用tez调整映射器和还原器的数量

Hadoop 为了加快蜂巢进程,如何使用tez调整映射器和还原器的数量,hadoop,hive,apache-tez,Hadoop,Hive,Apache Tez,我试着用tez对150GB左右的大数据语句进行processword标记,但问题是它花费了1周或更长的时间,然后 我试图指定映射器的数量。 虽然我设置mapred.map.tasks=2000, 但我不能阻止mapper被设置为150左右, 所以我不能做我想做的事 我在oozie工作流文件中指定map值并使用tez 如何指定映射器的数量 最后我想加快这个过程,不用tez也可以 另外,我想用减缩器数一数带标签的句子,这也需要很多时间 而且,我还想知道如何调整内存大小以使用每个映射器和减速机进程 为

我试着用tez对150GB左右的大数据语句进行processword标记,但问题是它花费了1周或更长的时间,然后

我试图指定映射器的数量。 虽然我设置mapred.map.tasks=2000, 但我不能阻止mapper被设置为150左右, 所以我不能做我想做的事

我在oozie工作流文件中指定map值并使用tez

如何指定映射器的数量

最后我想加快这个过程,不用tez也可以

另外,我想用减缩器数一数带标签的句子,这也需要很多时间

而且,我还想知道如何调整内存大小以使用每个映射器和减速机进程

为了在TEZ是执行引擎时手动设置配置单元查询中的映射器数量,可以使用configuration TEZ.grouping.split-count

。。。set tez.grouping.split count=4将创建4个映射器

但是,总的来说,您应该在开始之前优化存储格式和配置单元分区。不要尝试处理配置单元中以文本形式存储的数据。首先将其转换为兽人或拼花地板


如果Tez不适合你,你可以试试Spark。加上给句子加上标签可能是你可以在某处找到的一个火花MLlib worlflow

mapred.map.tasks对Tez没有任何作用,因为它不是运行的MR-Hive引擎。另外,该属性不受欢迎请参见以下答案:您知道如何调整缩减器的数量和分配的内存大小吗?mapreduce.job.reduces和控制映射器容器的相同内存设置应该控制缩减器