Hadoop 如何使用mapreduce处理大型数据集_Hadoop_Mapreduce_Hive_Hdfs_Bigdata

Hadoop 如何使用mapreduce处理大型数据集

hadoop mapreduce hive

Hadoop 如何使用mapreduce处理大型数据集,hadoop,mapreduce,hive,hdfs,bigdata,Hadoop,Mapreduce,Hive,Hdfs,Bigdata,有人能帮我找到一个解决以下情况的方法吗我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序，它应该从hdfs读取输入提要文件并准备一些数据，从hive读取数据并准备一些数据，然后比较这两个数据集以确定数据的准确性最好的方法是什么？我们如何在mapreduce中做到这一点注意：我不想将所有数据（从提要文件收集的数据和从配置单元收集的数据）保留在内存或缓冲区中。因为我使用的是低配置的机器，它们不能在RAM内存中存储大量数据谢谢你，拉姆。用例不是很清楚

有人能帮我找到一个解决以下情况的方法吗

我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序，它应该从hdfs读取输入提要文件并准备一些数据，从hive读取数据并准备一些数据，然后比较这两个数据集以确定数据的准确性

最好的方法是什么？我们如何在mapreduce中做到这一点

注意：我不想将所有数据（从提要文件收集的数据和从配置单元收集的数据）保留在内存或缓冲区中。因为我使用的是低配置的机器，它们不能在RAM内存中存储大量数据

谢谢你，拉姆。

用例不是很清楚。你能解释一下你想用这些数据做什么吗？您计划如何在Map Reduce范例中实现逻辑？嗨，Venkat，下面我解释的场景是用普通java实现的。不在Mapreduce中。由于缺乏Hadoop方面的知识，我们没有使用任何Hadoop工具来利用并行处理。实际上，场景是我们从输入提要文件（纯文本文件）逐行读取数据，并提取java hashmap集合中的一些信息。现在，我应用简单查询从配置单元获取数据，并准备另一个java哈希映射，我们正在比较这两个哈希映射以获得报告，以检查数据的准确性。这是用普通java实现的，现在我们想在Mapreduce中实现，以利用hadoop的特性。我们如何将其迁移到mapreduce中。我不善于解释。如果仍然不理解我的要求，请随时联系我。