Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/clojure/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
hadoop map reduce vs clojure pmap函数_Hadoop_Clojure_Mapreduce - Fatal编程技术网

hadoop map reduce vs clojure pmap函数

hadoop map reduce vs clojure pmap函数,hadoop,clojure,mapreduce,Hadoop,Clojure,Mapreduce,假设我在单独的excel文件中有大量独立的数据集 就运行时效率而言,使用clojure Pmap函数处理数据还是使用hadoop map reduce更好 每个excel文件至少包含大约34000行,我有相当多的行 对于初学者的问题,我很抱歉,因为我对这两个方面都比较陌生,正在对它们进行研究 正如你们中的一些人所解释的 也许还有一个问题是将clojure pmap与运行相同软件副本的多个实例进行比较,它们之间有什么区别 我能想到的唯一一件事是,pmap可以接受任意数量的变量,但是,每个应用程序实

假设我在单独的excel文件中有大量独立的数据集

就运行时效率而言,使用clojure Pmap函数处理数据还是使用hadoop map reduce更好

每个excel文件至少包含大约34000行,我有相当多的行

对于初学者的问题,我很抱歉,因为我对这两个方面都比较陌生,正在对它们进行研究

正如你们中的一些人所解释的

也许还有一个问题是将clojure pmap与运行相同软件副本的多个实例进行比较,它们之间有什么区别


我能想到的唯一一件事是,pmap可以接受任意数量的变量,但是,每个应用程序实例读取一个文件需要预先知道文件的数量,并初始化实例

许多语言都具有map reduce功能,包括Clojure


我想说Hadoop将是不折不扣的赢家,因为它通过机器集群来管理它。这是大规模并行化的潜力,这将使它比其他没有内置它的语言具有明显的优势。

许多语言都具有map-reduce功能,包括Clojure


我想说Hadoop将是不折不扣的赢家,因为它通过机器集群来管理它。这是大规模并行化的潜力,这将使它比其他任何没有内置Hadoop的东西都有明显的优势。

我想说的是使用Hadoop,但不是直接使用,而是通过Clojure。这里的价值主张是Hadoop为您提供的一切,再加上强大的声明性查询语言,即使任务相对较小,使用Cascalog也很有价值;在本地模式下使用Hadoop进行安装完全没有麻烦

最初的介绍性博客文章仍然是最好的起点,尽管现在有很多很好的文档可供使用——请参阅GitHub上的wiki:第一篇是,最后链接到第二篇

为了让您了解它的外观,这里有一段来自第一个教程的片段,查找跟随者年龄大于跟随者的所有跟随关系:

(?<- (stdout) [?person1 ?person2] 
  (age ?person1 ?age1)
  (follows ?person1 ?person2)
  (age ?person2 ?age2)
  (< ?age2 ?age1))

在集群上运行这个也没问题,请参阅Nathan Marz的博客上的示例。

我想说使用Hadoop,但不是直接使用,而是通过Clojure。这里的价值主张是Hadoop为您提供的一切,再加上强大的声明性查询语言,即使任务相对较小,使用Cascalog也很有价值;在本地模式下使用Hadoop进行安装完全没有麻烦

最初的介绍性博客文章仍然是最好的起点,尽管现在有很多很好的文档可供使用——请参阅GitHub上的wiki:第一篇是,最后链接到第二篇

为了让您了解它的外观,这里有一段来自第一个教程的片段,查找跟随者年龄大于跟随者的所有跟随关系:

(?<- (stdout) [?person1 ?person2] 
  (age ?person1 ?age1)
  (follows ?person1 ?person2)
  (age ?person2 ?age2)
  (< ?age2 ?age1))

在集群上运行这个也没问题,请参见Nathan Marz的博客上的示例。

我不会为了能够处理很多小文件而运行和建立Hadoop集群,而这些文件对Hadoop来说并不理想。Hadoop面向处理大文件,其块大小为64M,map reduce的效率来自于让这些大文件分布在集群上并将计算发送到数据

在您的情况下,似乎运行软件的多个副本,每个副本一次处理一个文件就能解决问题,并且开销最小——包括计算和操作,即设置和维护hadoop


hadoop可以给你的一件事是处理任务的管理,即在出现故障等情况下退出,但是,对于你所描述的,这似乎又是一件过分的事情

我不会运行并建立一个hadoop集群,只是为了能够处理很多小文件,而这些文件对hadoop来说并不理想。Hadoop面向处理大文件,其块大小为64M,map reduce的效率来自于让这些大文件分布在集群上并将计算发送到数据

在您的情况下,似乎运行软件的多个副本,每个副本一次处理一个文件就能解决问题,并且开销最小——包括计算和操作,即设置和维护hadoop


hadoop可以给你的一件事是处理任务的管理,即在出现故障等情况下退出,但同样,你所描述的内容似乎有些过火了

是否存在clojure智胜hadoop的情况?假设运行在很少的资源上,比如说可能是几台PC机而不是机器集群?智者?听起来你现在对魔法思维感到内疚。有没有一种情况是clojure智胜了hadoop?假定正在运行
用很少的资源,比如说用几台个人电脑而不是机器集群?听起来你现在对神奇的想法感到内疚。@arnon.me嗨,与运行同一文件的多个副本相比,clojure pmap功能如何?如果你有很多大小相对相同的文件,即使每个文件都由一个内核处理,你也可以通过处理与内核数量相同的文件来获得足够的并行性。如果文件大小差异很大,或者您只有很少的文件,那么可以对单个文件的处理进行并行化,如果处理确实是CPU密集型的,那么甚至值得为以分布式方式处理文件付出代价,例如通过hadoop—这一切取决于:@arnon.me Hi,与运行同一文件的多个副本相比,clojure pmap的功能如何?如果您有许多大小相对相同的文件,即使每个文件由一个内核处理,您也可以通过处理与内核数量相同的文件来获得足够的并行性。如果文件的大小差异很大,或者您只有很少的文件,那么可以对单个文件的处理进行并行化,如果处理确实是CPU密集型的,那么甚至值得为以分布式方式处理文件而付出代价,例如使用hadoop-这一切都取决于:请参见:-s/SQL/pmap/请参见:-s/SQL/pmap/