cassandra.input.split.size未反映在DSE3.2.4 Hadoop中

cassandra.input.split.size未反映在DSE3.2.4 Hadoop中,hadoop,mapreduce,cassandra,hive,datastax-enterprise,Hadoop,Mapreduce,Cassandra,Hive,Datastax Enterprise,我正在使用DSE3.2.4中的配置单元处理Cassandra表。 无论表格大小如何,它为每个作业运行513个映射器。 我试图改变 cassandra.input.split.size 65536 mapred.min.split.size 1000000 这些都反映在Job.xml中,但没有运气 将mapred.map.tasks更改为4不会反映在Job.xml中,我知道这不会反映,但只是尝试一下 我仍然不明白为什么这个奇特的数字513?513=256个V节点拆分*2+1 这让我猜你有一个2节

我正在使用DSE3.2.4中的配置单元处理Cassandra表。 无论表格大小如何,它为每个作业运行513个映射器。 我试图改变

cassandra.input.split.size 65536
mapred.min.split.size 1000000
这些都反映在Job.xml中,但没有运气

mapred.map.tasks更改为4
不会反映在Job.xml中,我知道这不会反映,但只是尝试一下


我仍然不明白为什么这个奇特的数字513?

513=256个V节点拆分*2+1


这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前,每个VNode范围都被划分为至少一个分区,这就是为什么不建议将VNode用于分析群集的原因。

513=256个VNode分区*2+1


这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前,每个VNode范围都被划分为至少一个分区,这就是为什么不建议将VNode用于分析群集的原因。

513=256个VNode分区*2+1


这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前,每个VNode范围都被划分为至少一个分区,这就是为什么不建议将VNode用于分析群集的原因。

513=256个VNode分区*2+1



这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前,每个vnodes范围都被划分为至少一个部分,这就是为什么不建议将vnodes用于分析群集的原因。

我现在应该怎么做?你有他们解释这一点的文件吗?这太糟糕了,即使现在查询10行表,它将从n*2+1中进行拆分,那么cassandra.input.split.size、page size所有这些参数有什么用?我可以尝试更改任何输入格式吗?或者不使用VNode(但每个节点至少有一个拆分),或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射,这取决于令牌范围的数量或VNode的数量?更改输入格式类也不起作用?我正在尝试将InputFormat类更改为CqlPagingInputFormat,如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动,则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小?它总是取决于表格大小,但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行,拆分大小为20k,您将得到5000个拆分。我现在该怎么办?你有他们解释这一点的文件吗?这太糟糕了,即使现在查询10行表,它将从n*2+1中进行拆分,那么cassandra.input.split.size、page size所有这些参数有什么用?我可以尝试更改任何输入格式吗?或者不使用VNode(但每个节点至少有一个拆分),或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射,这取决于令牌范围的数量或VNode的数量?更改输入格式类也不起作用?我正在尝试将InputFormat类更改为CqlPagingInputFormat,如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动,则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小?它总是取决于表格大小,但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行,拆分大小为20k,您将得到5000个拆分。我现在该怎么办?你有他们解释这一点的文件吗?这太糟糕了,即使现在查询10行表,它将从n*2+1中进行拆分,那么cassandra.input.split.size、page size所有这些参数有什么用?我可以尝试更改任何输入格式吗?或者不使用VNode(但每个节点至少有一个拆分),或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射,这取决于令牌范围的数量或VNode的数量?更改输入格式类也不起作用?我正在尝试将InputFormat类更改为CqlPagingInputFormat,如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动,则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小?它总是取决于表格大小,但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行,拆分大小为20k,您将得到5000个拆分。我现在该怎么办?你有他们解释这一点的文件吗?这太糟糕了,即使现在查询10行表,它将从n*2+1中进行拆分,那么cassandra.input.split.size、page size所有这些参数有什么用?我可以尝试更改任何输入格式吗?或者不使用VNode(但每个节点至少有一个拆分),或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射,这取决于令牌范围的数量或VNode的数量?更改输入格式类也不起作用?我正在尝试将InputFormat类更改为CqlPagingInputForma