Datastax Cassandra PIG只运行一个地图

Datastax Cassandra PIG只运行一个地图,cassandra,hive,apache-pig,cql,datastax,Cassandra,Hive,Apache Pig,Cql,Datastax,我使用带有两个节点的Datastax Cassandra 3.1.4。我正在使用CqlStorage()运行pig,表中有1200万行,但是我发现对于一个简单的pig命令,只有一个map在运行 我试着改变我和猪的关系中的分裂大小,但没有成功 这是我的示例查询 x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage(); y = limit x 500; dump y 我在mapred-site.xml中找不到input.

我使用带有两个节点的Datastax Cassandra 3.1.4。我正在使用CqlStorage()运行pig,表中有1200万行,但是我发现对于一个简单的pig命令,只有一个map在运行

我试着改变我和猪的关系中的分裂大小,但没有成功

这是我的示例查询

x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage();
y = limit x 500;
dump y
我在mapred-site.xml中找不到input.split.size属性我假设默认拆分大小为64*1024

我尝试
设置pig.splitcomposition false

现在需要513张地图才能找到任何数量的记录,我在蜂巢里也试过同样的方法

我已经从Hive连接到Cassandra,并给出了一个简单的select all查询,其中col1>值这个表只有10条记录,但仍然运行513个映射

请帮我做这个

谢谢

尝试以下设置:

set pig.splitCombination false;

默认情况下,pig将。

嗨,psanford,我的目标是增加从cassandra读取的记录数。默认情况下,每个贴图读取64k行,但这里不是soo。我有大约1200万行,如果我将pig.splitcomposition设置为false,则需要513张地图。请帮助我,我的目标是增加卡桑德拉的记录数量。默认情况下,每个贴图读取64k行,但这里不是soo。我有大约1200万行,如果我将pig.splitcomposition设置为false,则需要513张地图。请帮助我,现在我正在尝试从cassandra的蜂巢查询中使用513 Map。我猜cassandra属性存在一些问题,请让我知道我是否可以从这一点开始,因为默认情况下,PIG将合并小拆分,而蜂巢不会。因此,无论何时,只要有小的拆分或没有合并,它都会运行513个贴图。请在这方面帮助我经过长时间的搜索,我得到了这个参数mapred.map.tasks=513我没有在任何我试图设置mapred.map.tasks=4的地方设置这个参数,但仍然没有reflecting@sudheer我建议再问一个关于513张地图的问题。这是一个不同于单一地图的问题,单一地图的问题已经在这里得到了回答:可能的重复