Mapreduce 在大文件上以本地模式清管器

Mapreduce 在大文件上以本地模式清管器,mapreduce,apache-pig,bigdata,Mapreduce,Apache Pig,Bigdata,我正在一个54 GB的大文件上以本地模式运行pig。我观察到它按顺序生成了许多映射任务。我期望的是,可能每个映射任务都读取了64MB的行。所以,如果我想优化它,可能读取1GB的等效行数 a、 )可能吗?(可能通过增加拆分大小) b、 )怎么办? c、 )是否有其他最佳方法 谢谢您可以通过设置来增加拆分大小: SET mapred.max.split.size #bytes 默认情况下,块大小为64MB。 尝试以下操作以增加块大小: 打开hdfs-site.xml文件。此文件通常位于Hadoo

我正在一个54 GB的大文件上以本地模式运行pig。我观察到它按顺序生成了许多映射任务。我期望的是,可能每个映射任务都读取了64MB的行。所以,如果我想优化它,可能读取1GB的等效行数

a、 )可能吗?(可能通过增加拆分大小) b、 )怎么办? c、 )是否有其他最佳方法


谢谢

您可以通过设置来增加拆分大小:

SET mapred.max.split.size  #bytes

默认情况下,块大小为64MB。 尝试以下操作以增加块大小:

打开hdfs-site.xml文件。此文件通常位于Hadoop安装目录的conf/文件夹中。请在hdfs-site.xml中设置以下属性:

-property- 
-name-dfs.block.size-name- 
-value-134217728-value- 
-description-Block size-description- 
-property-

它是本地模式的猪。。因此没有hdfs-site.xml