Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图
我正在使用DSE3.2.4 我已经创建了三个表,其中一个表有10M行,另一个表有50k行,另一个表只有10行 当我在这些表上运行一个简单的PIG或Hive查询时,它会为这两个表运行相同数量的映射器 默认情况下,在Pig中Hadoop PIG和HIVE连接到Datastax Cassandra运行大量地图,hadoop,mapreduce,cassandra,hive,datastax-enterprise,Hadoop,Mapreduce,Cassandra,Hive,Datastax Enterprise,我正在使用DSE3.2.4 我已经创建了三个表,其中一个表有10M行,另一个表有50k行,另一个表只有10行 当我在这些表上运行一个简单的PIG或Hive查询时,它会为这两个表运行相同数量的映射器 默认情况下,在Pig中Pig.splitcomposition为true其中仅运行一个映射 如果我将其设置为false,它现在将运行513个贴图 在配置单元中,默认情况下它运行513个映射 我尝试设置以下属性 mapred.min.split.size=134217728 in `mapred-sit
Pig.splitcomposition
为true
其中仅运行一个映射
如果我将其设置为false,它现在将运行513个贴图
在配置单元中,默认情况下它运行513个映射
我尝试设置以下属性
mapred.min.split.size=134217728 in `mapred-site.xml` now running 513 maps for all
set pig.splitcomposition=false
在清管器外壳中,现在对所有表仅运行1
但是没有运气
最后,我在job.xml
我试图在mapred site.xml
中更改这一点,但它没有反映
请在这方面帮助我映射程序由拆分大小管理,因此不要通过hadoop设置进行配置,请尝试将&split_size=传递到您的pig url。为蜂巢设置“cassandra.input.split.size” 默认值为64M 如果您的Cassandra使用v-node,它会创建许多拆分,因此,如果您的数据不够大,请关闭hadoop节点的v-node