Hadoop 使用mapreduce处理文件

Hadoop 使用mapreduce处理文件,hadoop,mapreduce,apache-pig,cloudera,Hadoop,Mapreduce,Apache Pig,Cloudera,我使用简单的pig脚本读取input.txt文件,并为每一行添加新的字段 然后将输出关系存储到avro中 与本地模式相比,在mapreduce模式下运行这样的脚本有什么好处吗 谢谢在本地模式下,您正在本地计算机上运行作业。使用mapreduce,您可以在集群中运行作业(您的文件将被拆分为多个部分,并在多台计算机上并行处理) 因此,从理论上讲,如果您的文件足够大(或者有很多这样的文件需要处理),那么使用mapreduce模式可以在更短的时间内完成工作

我使用简单的pig脚本读取input.txt文件,并为每一行添加新的字段

然后将输出关系存储到avro中

与本地模式相比,在mapreduce模式下运行这样的脚本有什么好处吗


谢谢

在本地模式下,您正在本地计算机上运行作业。使用mapreduce,您可以在集群中运行作业(您的文件将被拆分为多个部分,并在多台计算机上并行处理)

因此,从理论上讲,如果您的文件足够大(或者有很多这样的文件需要处理),那么使用mapreduce模式可以在更短的时间内完成工作