hadoop map reduce vs clojure pmap函数_Hadoop_Clojure_Mapreduce

hadoop map reduce vs clojure pmap函数

hadoop clojure mapreduce

hadoop map reduce vs clojure pmap函数,hadoop,clojure,mapreduce,Hadoop,Clojure,Mapreduce,假设我在单独的excel文件中有大量独立的数据集就运行时效率而言，使用clojure Pmap函数处理数据还是使用hadoop map reduce更好每个excel文件至少包含大约34000行，我有相当多的行对于初学者的问题，我很抱歉，因为我对这两个方面都比较陌生，正在对它们进行研究正如你们中的一些人所解释的也许还有一个问题是将clojure pmap与运行相同软件副本的多个实例进行比较，它们之间有什么区别我能想到的唯一一件事是，pmap可以接受任意数量的变量，但是，每个应用程序实

假设我在单独的excel文件中有大量独立的数据集

就运行时效率而言，使用clojure Pmap函数处理数据还是使用hadoop map reduce更好

每个excel文件至少包含大约34000行，我有相当多的行

对于初学者的问题，我很抱歉，因为我对这两个方面都比较陌生，正在对它们进行研究

正如你们中的一些人所解释的

也许还有一个问题是将clojure pmap与运行相同软件副本的多个实例进行比较，它们之间有什么区别

我能想到的唯一一件事是，pmap可以接受任意数量的变量，但是，每个应用程序实例读取一个文件需要预先知道文件的数量，并初始化实例

许多语言都具有map reduce功能，包括Clojure

我想说Hadoop将是不折不扣的赢家，因为它通过机器集群来管理它。这是大规模并行化的潜力，这将使它比其他没有内置它的语言具有明显的优势。

许多语言都具有map-reduce功能，包括Clojure

我想说Hadoop将是不折不扣的赢家，因为它通过机器集群来管理它。这是大规模并行化的潜力，这将使它比其他任何没有内置Hadoop的东西都有明显的优势。

我想说的是使用Hadoop，但不是直接使用，而是通过Clojure。这里的价值主张是Hadoop为您提供的一切，再加上强大的声明性查询语言，即使任务相对较小，使用Cascalog也很有价值；在本地模式下使用Hadoop进行安装完全没有麻烦

最初的介绍性博客文章仍然是最好的起点，尽管现在有很多很好的文档可供使用——请参阅GitHub上的wiki：第一篇是，最后链接到第二篇

为了让您了解它的外观，这里有一段来自第一个教程的片段，查找跟随者年龄大于跟随者的所有跟随关系：

(?<- (stdout) [?person1 ?person2] 
  (age ?person1 ?age1)
  (follows ?person1 ?person2)
  (age ?person2 ?age2)
  (< ?age2 ?age1))

在集群上运行这个也没问题，请参阅Nathan Marz的博客上的示例。

我想说使用Hadoop，但不是直接使用，而是通过Clojure。这里的价值主张是Hadoop为您提供的一切，再加上强大的声明性查询语言，即使任务相对较小，使用Cascalog也很有价值；在本地模式下使用Hadoop进行安装完全没有麻烦

最初的介绍性博客文章仍然是最好的起点，尽管现在有很多很好的文档可供使用——请参阅GitHub上的wiki：第一篇是，最后链接到第二篇

为了让您了解它的外观，这里有一段来自第一个教程的片段，查找跟随者年龄大于跟随者的所有跟随关系：

(?<- (stdout) [?person1 ?person2] 
  (age ?person1 ?age1)
  (follows ?person1 ?person2)
  (age ?person2 ?age2)
  (< ?age2 ?age1))

在集群上运行这个也没问题，请参见Nathan Marz的博客上的示例。

我不会为了能够处理很多小文件而运行和建立Hadoop集群，而这些文件对Hadoop来说并不理想。Hadoop面向处理大文件，其块大小为64M，map reduce的效率来自于让这些大文件分布在集群上并将计算发送到数据

在您的情况下，似乎运行软件的多个副本，每个副本一次处理一个文件就能解决问题，并且开销最小——包括计算和操作，即设置和维护hadoop

hadoop可以给你的一件事是处理任务的管理，即在出现故障等情况下退出，但是，对于你所描述的，这似乎又是一件过分的事情

我不会运行并建立一个hadoop集群，只是为了能够处理很多小文件，而这些文件对hadoop来说并不理想。Hadoop面向处理大文件，其块大小为64M，map reduce的效率来自于让这些大文件分布在集群上并将计算发送到数据

在您的情况下，似乎运行软件的多个副本，每个副本一次处理一个文件就能解决问题，并且开销最小——包括计算和操作，即设置和维护hadoop

hadoop可以给你的一件事是处理任务的管理，即在出现故障等情况下退出，但同样，你所描述的内容似乎有些过火了

是否存在clojure智胜hadoop的情况？假设运行在很少的资源上，比如说可能是几台PC机而不是机器集群？智者？听起来你现在对魔法思维感到内疚。有没有一种情况是clojure智胜了hadoop？假定正在运行

用很少的资源，比如说用几台个人电脑而不是机器集群？听起来你现在对神奇的想法感到内疚。@arnon.me嗨，与运行同一文件的多个副本相比，clojure pmap功能如何？如果你有很多大小相对相同的文件，即使每个文件都由一个内核处理，你也可以通过处理与内核数量相同的文件来获得足够的并行性。如果文件大小差异很大，或者您只有很少的文件，那么可以对单个文件的处理进行并行化，如果处理确实是CPU密集型的，那么甚至值得为以分布式方式处理文件付出代价，例如通过hadoop—这一切取决于：@arnon.me Hi，与运行同一文件的多个副本相比，clojure pmap的功能如何？如果您有许多大小相对相同的文件，即使每个文件由一个内核处理，您也可以通过处理与内核数量相同的文件来获得足够的并行性。如果文件的大小差异很大，或者您只有很少的文件，那么可以对单个文件的处理进行并行化，如果处理确实是CPU密集型的，那么甚至值得为以分布式方式处理文件而付出代价，例如使用hadoop-这一切都取决于：请参见：-s/SQL/pmap/请参见：-s/SQL/pmap/