Concurrency 当我想用1000+;同时运行相同的算法时,Hadoop能做什么;一组不同的参数?

Concurrency 当我想用1000+;同时运行相同的算法时,Hadoop能做什么;一组不同的参数?,concurrency,hadoop,Concurrency,Hadoop,我想同时运行1000多个不同版本的相同算法(不同参数),Hadoop在这种情况下能提高性能吗? 我目前对Hadoop一无所知,所以这个问题可能看起来很愚蠢。 我只想知道Hadoop是否能解决这个问题,我不需要知道怎么做。不,它不能。只是因为它不关心同时运行的是什么类型的作业。您将看到一些性能改进,因为操作系统尝试缓存您的输入。但总体而言,该框架不会优化这种情况 Hadoop并不是为这类工作而构建的,我非常怀疑Hadoop是否能带来良好的性能。你对Hadoop的看法是错误的。使用Hadoop的优势

我想同时运行1000多个不同版本的相同算法(不同参数),Hadoop在这种情况下能提高性能吗? 我目前对Hadoop一无所知,所以这个问题可能看起来很愚蠢。
我只想知道Hadoop是否能解决这个问题,我不需要知道怎么做。

不,它不能。只是因为它不关心同时运行的是什么类型的作业。您将看到一些性能改进,因为操作系统尝试缓存您的输入。但总体而言,该框架不会优化这种情况


Hadoop并不是为这类工作而构建的,我非常怀疑Hadoop是否能带来良好的性能。

你对Hadoop的看法是错误的。使用Hadoop的优势和优势在于它允许在“数据密集型”任务上进行分布式计算。这意味着,当需要对大量数据(很多TB到几PB)进行相对较小/简单的处理时,它会表现出色


所以当你考虑Hadoop时,问题是,“我有大量的数据吗?”如果是的话,那么它可以为你工作。看起来您的答案是否定的,您希望将其用于并发处理。在这种情况下,这不是适合您的方式。

您可以使用hadoop来实现。您将只从其功能的一部分(分布式任务调度)中获益,而不会从其余部分获益

从技术上讲,我建议采取以下方式: a) 使每组参数成为单个输入拆分。 b) 使每个映射器从输入读取参数,并直接从HDFS(或从分布式缓存)读取数据

您将得到什么-通过集群分配负载,重新启动失败的任务