Mapreduce 在大文件上以本地模式清管器_Mapreduce_Apache Pig_Bigdata

Mapreduce 在大文件上以本地模式清管器

mapreduce apache-pig

Mapreduce 在大文件上以本地模式清管器,mapreduce,apache-pig,bigdata,Mapreduce,Apache Pig,Bigdata,我正在一个54 GB的大文件上以本地模式运行pig。我观察到它按顺序生成了许多映射任务。我期望的是，可能每个映射任务都读取了64MB的行。所以，如果我想优化它，可能读取1GB的等效行数 a、）可能吗？（可能通过增加拆分大小） b、）怎么办？ c、）是否有其他最佳方法谢谢您可以通过设置来增加拆分大小： SET mapred.max.split.size #bytes 默认情况下，块大小为64MB。尝试以下操作以增加块大小：打开hdfs-site.xml文件。此文件通常位于Hadoo

我正在一个54 GB的大文件上以本地模式运行pig。我观察到它按顺序生成了许多映射任务。我期望的是，可能每个映射任务都读取了64MB的行。所以，如果我想优化它，可能读取1GB的等效行数

a、）可能吗？（可能通过增加拆分大小） b、）怎么办？ c、）是否有其他最佳方法

谢谢

您可以通过设置来增加拆分大小：

SET mapred.max.split.size  #bytes

默认情况下，块大小为64MB。尝试以下操作以增加块大小：

打开hdfs-site.xml文件。此文件通常位于Hadoop安装目录的conf/文件夹中。请在hdfs-site.xml中设置以下属性：

-property- 
-name-dfs.block.size-name- 
-value-134217728-value- 
-description-Block size-description- 
-property-

它是本地模式的猪。。因此没有hdfs-site.xml