Hadoop 使用SSD提高hive的性能_Hadoop_Mapreduce_Hive_Shuffle

Hadoop 使用SSD提高hive的性能

hadoop mapreduce hive

Hadoop 使用SSD提高hive的性能,hadoop,mapreduce,hive,shuffle,Hadoop,Mapreduce,Hive,Shuffle,我正在尝试使用SSD来提高配置单元的性能。 SSD是，具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。现在我的想法是简化或消除洗牌步骤。这可能吗？如果可能的话，你在哪里做改变请告诉我们当配置单元运行时会发生什么，临时文件存储在哪里我不太懂英语。我很抱歉。谢谢。理论上，您可以编写自己的分区器，并在运行映射程序的同一节点上运行的reducer上发送数据。这样做您将永远不会得到输出文件“unslitted”，因此避免洗牌不是一个好主意如果您有一个像SSD一样的快速

我正在尝试使用SSD来提高配置单元的性能。 SSD是，具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。现在我的想法是简化或消除洗牌步骤。这可能吗？如果可能的话，你在哪里做改变

请告诉我们当配置单元运行时会发生什么，临时文件存储在哪里

我不太懂英语。我很抱歉。

谢谢。

理论上，您可以编写自己的分区器，并在运行映射程序的同一节点上运行的reducer上发送数据。这样做您将永远不会得到输出文件“unslitted”，因此避免洗牌不是一个好主意

如果您有一个像SSD一样的快速磁盘，您可以增加块大小。通常，块大小的计算使寻道时间不大于整个块传输的1%

这还将减少使用的映射器的数量，因为拆分的数量很少。在某种程度上，更少的映射器意味着更少的洗牌。使用压缩文件格式作为中间文件，也可以加快工作速度