Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图_Hadoop_Mapreduce_Cassandra_Hive_Datastax Enterprise

Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图

hadoop mapreduce cassandra hive

Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图,hadoop,mapreduce,cassandra,hive,datastax-enterprise,Hadoop,Mapreduce,Cassandra,Hive,Datastax Enterprise,我正在使用DSE3.2.4 我已经创建了三个表，其中一个表有10M行，另一个表有50k行，另一个表只有10行当我在这些表上运行一个简单的PIG或Hive查询时，它会为这两个表运行相同数量的映射器默认情况下，在Pig中Pig.splitcomposition为true其中仅运行一个映射如果我将其设置为false，它现在将运行513个贴图在配置单元中，默认情况下它运行513个映射我尝试设置以下属性 mapred.min.split.size=134217728 in `mapred-sit

我正在使用DSE3.2.4 我已经创建了三个表，其中一个表有10M行，另一个表有50k行，另一个表只有10行当我在这些表上运行一个简单的PIG或Hive查询时，它会为这两个表运行相同数量的映射器

默认情况下，在Pig中

Pig.splitcomposition

为

true

其中仅运行一个映射如果我将其设置为false，它现在将运行513个贴图

在配置单元中，默认情况下它运行513个映射

我尝试设置以下属性

mapred.min.split.size=134217728 in `mapred-site.xml` now running 513 maps for all

set pig.splitcomposition=false

在清管器外壳中，现在对所有表仅运行1

但是没有运气

最后，我在

job.xml

我试图在

mapred site.xml

中更改这一点，但它没有反映

请在这方面帮助我

映射程序由拆分大小管理，因此不要通过hadoop设置进行配置，请尝试将&split_size=传递到您的pig url。为蜂巢设置“cassandra.input.split.size”

默认值为64M

如果您的Cassandra使用v-node，它会创建许多拆分，因此，如果您的数据不够大，请关闭hadoop节点的v-node