hadoop性能比较

hadoop性能比较,hadoop,mapreduce,Hadoop,Mapreduce,Hadoop什么时候应该比顺序程序执行得更快 我在单节点hdfs上运行了word count,从hdfs打开文件并遍历每个单词的顺序版本实际上比教程中的hadoop实现要快,似乎大部分时间都花在生成映射程序上 这应该发生吗?我是不是安装错了?或者Hadoop不应该比单节点实例上的顺序程序更快吗??我很困惑。您进行此性能比较的数据大小是多少?我猜它很小 Hadoop设计用于处理大型数据集,其中的数据大小为数百GB或TB。有很多与hadoop相关的超负荷启动,对于您已经执行的顺序程序来说,情况并非如

Hadoop什么时候应该比顺序程序执行得更快

我在单节点hdfs上运行了word count,从hdfs打开文件并遍历每个单词的顺序版本实际上比教程中的hadoop实现要快,似乎大部分时间都花在生成映射程序上


这应该发生吗?我是不是安装错了?或者Hadoop不应该比单节点实例上的顺序程序更快吗??我很困惑。

您进行此性能比较的数据大小是多少?我猜它很小

Hadoop设计用于处理大型数据集,其中的数据大小为数百GB或TB。有很多与hadoop相关的超负荷启动,对于您已经执行的顺序程序来说,情况并非如此

检查此项:


另一个参考资料:

您对其进行性能比较的数据大小是多少?我猜它很小

Hadoop设计用于处理大型数据集,其中的数据大小为数百GB或TB。有很多与hadoop相关的超负荷启动,对于您已经执行的顺序程序来说,情况并非如此

检查此项:


另一个参考资料:

您对其进行性能比较的数据大小是多少?我猜它很小

Hadoop设计用于处理大型数据集,其中的数据大小为数百GB或TB。有很多与hadoop相关的超负荷启动,对于您已经执行的顺序程序来说,情况并非如此

检查此项:


另一个参考资料:

您对其进行性能比较的数据大小是多少?我猜它很小

Hadoop设计用于处理大型数据集,其中的数据大小为数百GB或TB。有很多与hadoop相关的超负荷启动,对于您已经执行的顺序程序来说,情况并非如此

检查此项:


另一个参考:

这个方程有许多参数。使用了多少服务器/数据节点?每个处理器上有多少个CPU内核和可用内存?您正在读取的数据是可拆分的吗?(例如,二进制格式是不可拆分的,将由单个映射器读取),等等


您的问题中没有足够的此类信息,因此在设置绩效预期时,您应该注意以下原则。

这个等式有许多参数。使用了多少服务器/数据节点?每个处理器上有多少个CPU内核和可用内存?您正在读取的数据是可拆分的吗?(例如,二进制格式是不可拆分的,将由单个映射器读取),等等


您的问题中没有足够的此类信息,因此在设置绩效预期时,您应该注意以下原则。

这个等式有许多参数。使用了多少服务器/数据节点?每个处理器上有多少个CPU内核和可用内存?您正在读取的数据是可拆分的吗?(例如,二进制格式是不可拆分的,将由单个映射器读取),等等


您的问题中没有足够的此类信息,因此在设置绩效预期时,您应该注意以下原则。

这个等式有许多参数。使用了多少服务器/数据节点?每个处理器上有多少个CPU内核和可用内存?您正在读取的数据是可拆分的吗?(例如,二进制格式是不可拆分的,将由单个映射器读取),等等


您的问题中没有足够的此类信息,因此在设置性能期望时,您应该注意这些原则。

字数是一个非常简单但效率不高的示例。使用它来验证集群是否正常工作,但绝不用于性能测试

让我解释一下原因

WordCount解析每行文本,并为找到的每个单词写入映射器输出记录(单词,1)。如您所见,映射器的完整输出将大于输入。地图绘制者更大的输出将是还原器的输入。然后,您需要读取两倍以上的输入数据量,并将原始的input+计数器写入磁盘

除此之外,还需要将映射器输出传输到还原器。如果您只使用一个减速器,那么最后一步将类似于您的顺序作业

作业可以优化,例如使用组合器和多个减速器


当数据量大于本地资源(ram、HD、cpu)和/或当初始化容器的成本以及容器之间的数据传输被并行工作的节点数最小化时,Hadoop将比本地顺序作业更快。

WordCount是一个非常简单但效率不高的示例。使用它来验证集群是否正常工作,但绝不用于性能测试

让我解释一下原因

WordCount解析每行文本,并为找到的每个单词写入映射器输出记录(单词,1)。如您所见,映射器的完整输出将大于输入。地图绘制者更大的输出将是还原器的输入。然后,您需要读取两倍以上的输入数据量,并将原始的input+计数器写入磁盘

除此之外,还需要将映射器输出传输到还原器。如果您只使用一个减速器,那么最后一步将类似于您的顺序作业

作业可以优化,例如使用组合器和多个减速器

当数据量大于本地资源(ram、HD、cpu)和/或当初始化容器的成本以及容器之间的数据传输被并行工作的节点数最小化时,Hadoop将比本地顺序作业更快。