是否有数学模型来描述hadoop的运行时间和输入数据大小之间的关系？_Hadoop

是否有数学模型来描述hadoop的运行时间和输入数据大小之间的关系？

hadoop

是否有数学模型来描述hadoop的运行时间和输入数据大小之间的关系？,hadoop,Hadoop,在hadoop集群中，是否有数学模型来描述映射器的传输时间和数据输入大小的曲线例如，如果M个映射器的原始数据大小为N，所有映射器到还原器的总传输时间为T。现在我想在映射器中将数据大小加倍到2N，是否有传输时间T的近似估计（我认为T'必须小于2T），所以我的想法是使用对数曲线来描述这条曲线，但我不确定它是否正确。我假设您的输入来自HDFS（？）我还假设您的输入数据已经放在HDFS上，所以我们不讨论将您的输入数据从本地文件存储传输到HDFS的时间。我假设输入大小N是所有输入文件的总大小。我假

在hadoop集群中，是否有数学模型来描述映射器的传输时间和数据输入大小的曲线

例如，如果M个映射器的原始数据大小为N，所有映射器到还原器的总传输时间为T。现在我想在映射器中将数据大小加倍到2N，是否有传输时间T的近似估计（我认为T'必须小于2T），所以我的想法是使用对数曲线来描述这条曲线，但我不确定它是否正确。

我假设您的输入来自HDFS（？）我还假设您的输入数据已经放在HDFS上，所以我们不讨论将您的输入数据从本地文件存储传输到HDFS的时间。我假设输入大小N是所有输入文件的总大小。我假设M是映射任务的数量（基于输入文件被分解成的输入分割的数量）。如果我们讨论的是map任务和reduce任务之间的传输，那么我们需要知道map操作输出的大小。通常，此输出的大小与输入N的大小无关

即使我们知道map任务和REDUCT任务之间需要传输的总数据量，请求传输时间也不一定有意义，因为此传输可以在执行map和REDUCT任务的同时进行，它将是单个地图任务之间的一系列单独传输，并减少在不同时间点发生的任务。编写良好的hadoop应用程序的目标是通过重叠计算和通信来隐藏传输时间