Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件_Hadoop_Apache Spark_Hive_Apache Storm_Apache Drill

Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件

hadoop apache-spark hive apache-storm

Hadoop Mapreduce Vs Spark Vs Storm Vs Drill-用于小文件,hadoop,apache-spark,hive,apache-storm,apache-drill,Hadoop,Apache Spark,Hive,Apache Storm,Apache Drill,我知道spark进行内存计算，比MapReduce快得多。我想知道spark对

我知道spark进行内存计算，比MapReduce快得多。我想知道spark对<10000的唱片有多有效？我的hadoop数据平台中有大量文件（每个文件大约有10000条记录，比如100列文件），我需要在加载到hbase之前执行一些数据质量检查

我在hive中执行数据质量检查，它在后端使用MapReduce。每个文件大约需要8分钟，这对我来说非常糟糕。 spark会给我更好的表现吗，比如说2-3分钟

我知道我需要做一个基准测试，但在我真正开始使用spark之前，我一直在努力理解这里的基本知识。我记得第一次创建RDD将是一项开销，因为我需要为每个传入文件创建一个新的RDD，这将花费我一点时间

我不知道哪种方法对我来说是最好的——spark、drill、storm还是Mapreduce本身

我只是在探索钻机vs Spark vs Hive的性能，大约有数百万条记录。Dill和Spark的计算速度大约是我的5-10倍（我没有在具有大量RAM的集群上执行任何性能测试，我只是在单个节点上进行测试）计算速度快的原因-它们都执行内存中的计算

在我的例子中，drill&spark的性能几乎相当。所以，我说不出哪一个更好。你需要在你这边试试这个

测试钻机不会花费太多时间。最新的演练是在mapr hadoop集群上添加hive存储并执行。

根据您提供的信息，几乎不可能回答这个问题。什么具体数字=“大量文件”？这些文件中包含什么类型的数据？您正在执行的8分钟“数据质量检查”是什么？您使用的是什么特定硬件--1k节点还是10节点？@GoBrewers14:我每天将收到大约4000个文件。该文件包含由管道分隔的数据字段（文本数据）。我对每一列执行数据质量检查（文件级检查），以使文件包含有效数据、无缺失值、空字符串、无效日期格式等。我有大约100列，我对大约50列进行检查，这可能会进一步增加。目前我在一个三节点集群中工作，我知道这不是一个好的选择。但是我想要的是对我能获得的性能有一个感觉。@GoBrewers14:因为我有大约10000条记录，增加节点的数量可能没有什么帮助，因为数据总是小于我的块大小（如果我错了，请纠正我），我现在使用的是mapr hadoop发行版。如果我说我有一个由10个节点组成的集群，它将如何表现得更好？。我使用oozie来安排任务，因此oozie的延迟也必须得到处理