Hadoop 使用SSD提高hive的性能
我正在尝试使用SSD来提高配置单元的性能。 SSD是,具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。 现在我的想法是简化或消除洗牌步骤。 这可能吗?如果可能的话,你在哪里做改变 请告诉我们当配置单元运行时会发生什么,临时文件存储在哪里 我不太懂英语。我很抱歉。Hadoop 使用SSD提高hive的性能,hadoop,mapreduce,hive,shuffle,Hadoop,Mapreduce,Hive,Shuffle,我正在尝试使用SSD来提高配置单元的性能。 SSD是,具有高速随机存取功能。尝试更改mapreduce代码中要执行的配置单元。 现在我的想法是简化或消除洗牌步骤。 这可能吗?如果可能的话,你在哪里做改变 请告诉我们当配置单元运行时会发生什么,临时文件存储在哪里 我不太懂英语。我很抱歉。 谢谢。理论上,您可以编写自己的分区器,并在运行映射程序的同一节点上运行的reducer上发送数据。 这样做您将永远不会得到输出文件“unslitted”,因此避免洗牌不是一个好主意 如果您有一个像SSD一样的快速
谢谢。理论上,您可以编写自己的分区器,并在运行映射程序的同一节点上运行的reducer上发送数据。 这样做您将永远不会得到输出文件“unslitted”,因此避免洗牌不是一个好主意 如果您有一个像SSD一样的快速磁盘,您可以增加块大小。 通常,块大小的计算使寻道时间不大于整个块传输的1% 这还将减少使用的映射器的数量,因为拆分的数量很少。在某种程度上,更少的映射器意味着更少的洗牌。 使用压缩文件格式作为中间文件,也可以加快工作速度