Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图

Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图,hadoop,mapreduce,cassandra,hive,datastax-enterprise,Hadoop,Mapreduce,Cassandra,Hive,Datastax Enterprise,我正在使用DSE3.2.4 我已经创建了三个表,其中一个表有10M行,另一个表有50k行,另一个表只有10行 当我在这些表上运行一个简单的PIG或Hive查询时,它会为这两个表运行相同数量的映射器 默认情况下,在Pig中Pig.splitcomposition为true其中仅运行一个映射 如果我将其设置为false,它现在将运行513个贴图 在配置单元中,默认情况下它运行513个映射 我尝试设置以下属性 mapred.min.split.size=134217728 in `mapred-sit

我正在使用DSE3.2.4 我已经创建了三个表,其中一个表有10M行,另一个表有50k行,另一个表只有10行 当我在这些表上运行一个简单的PIG或Hive查询时,它会为这两个表运行相同数量的映射器

默认情况下,在Pig中
Pig.splitcomposition
true
其中仅运行一个映射 如果我将其设置为false,它现在将运行513个贴图

在配置单元中,默认情况下它运行513个映射

我尝试设置以下属性

mapred.min.split.size=134217728 in `mapred-site.xml` now running 513 maps for all 
set pig.splitcomposition=false
在清管器外壳中,现在对所有表仅运行1

但是没有运气

最后,我在
job.xml

我试图在
mapred site.xml
中更改这一点,但它没有反映


请在这方面帮助我

映射程序由拆分大小管理,因此不要通过hadoop设置进行配置,请尝试将&split_size=传递到您的pig url。为蜂巢设置“cassandra.input.split.size”

默认值为64M

如果您的Cassandra使用v-node,它会创建许多拆分,因此,如果您的数据不够大,请关闭hadoop节点的v-node