Hadoop 如何使用mapreduce处理大型数据集

Hadoop 如何使用mapreduce处理大型数据集,hadoop,mapreduce,hive,hdfs,bigdata,Hadoop,Mapreduce,Hive,Hdfs,Bigdata,有人能帮我找到一个解决以下情况的方法吗 我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序,它应该从hdfs读取输入提要文件并准备一些数据,从hive读取数据并准备一些数据,然后比较这两个数据集以确定数据的准确性 最好的方法是什么? 我们如何在mapreduce中做到这一点 注意:我不想将所有数据(从提要文件收集的数据和从配置单元收集的数据)保留在内存或缓冲区中。因为我使用的是低配置的机器,它们不能在RAM内存中存储大量数据 谢谢你,拉姆。用例不是很清楚

有人能帮我找到一个解决以下情况的方法吗

我正在尝试探索hadoop和hadoop相关工具。我想开发一个小的mapreduce应用程序,它应该从hdfs读取输入提要文件并准备一些数据,从hive读取数据并准备一些数据,然后比较这两个数据集以确定数据的准确性

最好的方法是什么? 我们如何在mapreduce中做到这一点

注意:我不想将所有数据(从提要文件收集的数据和从配置单元收集的数据)保留在内存或缓冲区中。因为我使用的是低配置的机器,它们不能在RAM内存中存储大量数据


谢谢你,拉姆。

用例不是很清楚。你能解释一下你想用这些数据做什么吗?您计划如何在Map Reduce范例中实现逻辑?嗨,Venkat,下面我解释的场景是用普通java实现的。不在Mapreduce中。由于缺乏Hadoop方面的知识,我们没有使用任何Hadoop工具来利用并行处理。实际上,场景是我们从输入提要文件(纯文本文件)逐行读取数据,并提取java hashmap集合中的一些信息。现在,我应用简单查询从配置单元获取数据,并准备另一个java哈希映射,我们正在比较这两个哈希映射以获得报告,以检查数据的准确性。这是用普通java实现的,现在我们想在Mapreduce中实现,以利用hadoop的特性。我们如何将其迁移到mapreduce中。我不善于解释。如果仍然不理解我的要求,请随时联系我。