Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sockets/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 使用SSD提高hive的性能_Hadoop_Mapreduce_Hive_Shuffle - Fatal编程技术网

Hadoop 使用SSD提高hive的性能

Hadoop 使用SSD提高hive的性能,hadoop,mapreduce,hive,shuffle,Hadoop,Mapreduce,Hive,Shuffle,我正在尝试使用SSD来提高配置单元的性能。 SSD是,具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。 现在我的想法是简化或消除洗牌步骤。 这可能吗?如果可能的话,你在哪里做改变 请告诉我们当配置单元运行时会发生什么,临时文件存储在哪里 我不太懂英语。我很抱歉。 谢谢。理论上,您可以编写自己的分区器,并在运行映射程序的同一节点上运行的reducer上发送数据。 这样做您将永远不会得到输出文件“unslitted”,因此避免洗牌不是一个好主意 如果您有一个像SSD一样的快速

我正在尝试使用SSD来提高配置单元的性能。 SSD是,具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。 现在我的想法是简化或消除洗牌步骤。 这可能吗?如果可能的话,你在哪里做改变

请告诉我们当配置单元运行时会发生什么,临时文件存储在哪里

我不太懂英语。我很抱歉。
谢谢。

理论上,您可以编写自己的分区器,并在运行映射程序的同一节点上运行的reducer上发送数据。 这样做您将永远不会得到输出文件“unslitted”,因此避免洗牌不是一个好主意

如果您有一个像SSD一样的快速磁盘,您可以增加块大小。 通常,块大小的计算使寻道时间不大于整个块传输的1%

这还将减少使用的映射器的数量,因为拆分的数量很少。在某种程度上,更少的映射器意味着更少的洗牌。 使用压缩文件格式作为中间文件,也可以加快工作速度