Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件_Hadoop_Apache Spark_Hive_Apache Storm_Apache Drill - Fatal编程技术网

Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件

Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件,hadoop,apache-spark,hive,apache-storm,apache-drill,Hadoop,Apache Spark,Hive,Apache Storm,Apache Drill,我知道spark进行内存计算,比MapReduce快得多。 我想知道spark对

我知道spark进行内存计算,比MapReduce快得多。 我想知道spark对<10000的唱片有多有效? 我的hadoop数据平台中有大量文件(每个文件大约有10000条记录,比如100列文件),我需要在加载到hbase之前执行一些数据质量检查

我在hive中执行数据质量检查,它在后端使用MapReduce。每个文件大约需要8分钟,这对我来说非常糟糕。 spark会给我更好的表现吗,比如说2-3分钟

我知道我需要做一个基准测试,但在我真正开始使用spark之前,我一直在努力理解这里的基本知识。 我记得第一次创建RDD将是一项开销,因为我需要为每个传入文件创建一个新的RDD,这将花费我一点时间


我不知道哪种方法对我来说是最好的——spark、drill、storm还是Mapreduce本身

我只是在探索钻机vs Spark vs Hive的性能,大约有数百万条记录。Dill和Spark的计算速度大约是我的5-10倍(我没有在具有大量RAM的集群上执行任何性能测试,我只是在单个节点上进行测试)计算速度快的原因-它们都执行内存中的计算

在我的例子中,drill&spark的性能几乎相当。所以,我说不出哪一个更好。你需要在你这边试试这个


测试钻机不会花费太多时间。最新的演练是在mapr hadoop集群上添加hive存储并执行。

根据您提供的信息,几乎不可能回答这个问题。什么具体数字=“大量文件”?这些文件中包含什么类型的数据?您正在执行的8分钟“数据质量检查”是什么?您使用的是什么特定硬件--1k节点还是10节点?@GoBrewers14:我每天将收到大约4000个文件。该文件包含由管道分隔的数据字段(文本数据)。我对每一列执行数据质量检查(文件级检查),以使文件包含有效数据、无缺失值、空字符串、无效日期格式等。我有大约100列,我对大约50列进行检查,这可能会进一步增加。目前我在一个三节点集群中工作,我知道这不是一个好的选择。但是我想要的是对我能获得的性能有一个感觉。@GoBrewers14:因为我有大约10000条记录,增加节点的数量可能没有什么帮助,因为数据总是小于我的块大小(如果我错了,请纠正我),我现在使用的是mapr hadoop发行版。如果我说我有一个由10个节点组成的集群,它将如何表现得更好?。我使用oozie来安排任务,因此oozie的延迟也必须得到处理