Concurrency 当我想用1000+；同时运行相同的算法时，Hadoop能做什么；一组不同的参数？_Concurrency_Hadoop

Concurrency 当我想用1000+；同时运行相同的算法时，Hadoop能做什么；一组不同的参数？

concurrency hadoop

Concurrency 当我想用1000+；同时运行相同的算法时，Hadoop能做什么；一组不同的参数？,concurrency,hadoop,Concurrency,Hadoop,我想同时运行1000多个不同版本的相同算法（不同参数），Hadoop在这种情况下能提高性能吗？我目前对Hadoop一无所知，所以这个问题可能看起来很愚蠢。我只想知道Hadoop是否能解决这个问题，我不需要知道怎么做。不，它不能。只是因为它不关心同时运行的是什么类型的作业。您将看到一些性能改进，因为操作系统尝试缓存您的输入。但总体而言，该框架不会优化这种情况 Hadoop并不是为这类工作而构建的，我非常怀疑Hadoop是否能带来良好的性能。你对Hadoop的看法是错误的。使用Hadoop的优势

我想同时运行1000多个不同版本的相同算法（不同参数），Hadoop在这种情况下能提高性能吗？我目前对Hadoop一无所知，所以这个问题可能看起来很愚蠢。

我只想知道Hadoop是否能解决这个问题，我不需要知道怎么做。

不，它不能。只是因为它不关心同时运行的是什么类型的作业。您将看到一些性能改进，因为操作系统尝试缓存您的输入。但总体而言，该框架不会优化这种情况

Hadoop并不是为这类工作而构建的，我非常怀疑Hadoop是否能带来良好的性能。

你对Hadoop的看法是错误的。使用Hadoop的优势和优势在于它允许在“数据密集型”任务上进行分布式计算。这意味着，当需要对大量数据（很多TB到几PB）进行相对较小/简单的处理时，它会表现出色

所以当你考虑Hadoop时，问题是，“我有大量的数据吗？”如果是的话，那么它可以为你工作。看起来您的答案是否定的，您希望将其用于并发处理。在这种情况下，这不是适合您的方式。

您可以使用hadoop来实现。您将只从其功能的一部分（分布式任务调度）中获益，而不会从其余部分获益

从技术上讲，我建议采取以下方式： a）使每组参数成为单个输入拆分。 b）使每个映射器从输入读取参数，并直接从HDFS（或从分布式缓存）读取数据

您将得到什么-通过集群分配负载，重新启动失败的任务