Hadoop 使用mapreduce处理文件_Hadoop_Mapreduce_Apache Pig_Cloudera

Hadoop 使用mapreduce处理文件

hadoop mapreduce apache-pig

Hadoop 使用mapreduce处理文件,hadoop,mapreduce,apache-pig,cloudera,Hadoop,Mapreduce,Apache Pig,Cloudera,我使用简单的pig脚本读取input.txt文件，并为每一行添加新的字段然后将输出关系存储到avro中与本地模式相比，在mapreduce模式下运行这样的脚本有什么好处吗谢谢在本地模式下，您正在本地计算机上运行作业。使用mapreduce，您可以在集群中运行作业（您的文件将被拆分为多个部分，并在多台计算机上并行处理）因此，从理论上讲，如果您的文件足够大（或者有很多这样的文件需要处理），那么使用mapreduce模式可以在更短的时间内完成工作

我使用简单的pig脚本读取input.txt文件，并为每一行添加新的字段

然后将输出关系存储到avro中

与本地模式相比，在mapreduce模式下运行这样的脚本有什么好处吗

谢谢

在本地模式下，您正在本地计算机上运行作业。使用mapreduce，您可以在集群中运行作业（您的文件将被拆分为多个部分，并在多台计算机上并行处理）

因此，从理论上讲，如果您的文件足够大（或者有很多这样的文件需要处理），那么使用mapreduce模式可以在更短的时间内完成工作