cassandra.input.split.size未反映在DSE3.2.4 Hadoop中_Hadoop_Mapreduce_Cassandra_Hive_Datastax Enterprise

cassandra.input.split.size未反映在DSE3.2.4 Hadoop中

hadoop mapreduce cassandra hive

cassandra.input.split.size未反映在DSE3.2.4 Hadoop中,hadoop,mapreduce,cassandra,hive,datastax-enterprise,Hadoop,Mapreduce,Cassandra,Hive,Datastax Enterprise,我正在使用DSE3.2.4中的配置单元处理Cassandra表。无论表格大小如何，它为每个作业运行513个映射器。我试图改变 cassandra.input.split.size 65536 mapred.min.split.size 1000000 这些都反映在Job.xml中，但没有运气将mapred.map.tasks更改为4不会反映在Job.xml中，我知道这不会反映，但只是尝试一下我仍然不明白为什么这个奇特的数字513？513=256个V节点拆分*2+1 这让我猜你有一个2节

我正在使用DSE3.2.4中的配置单元处理Cassandra表。无论表格大小如何，它为每个作业运行513个映射器。我试图改变

cassandra.input.split.size 65536
mapred.min.split.size 1000000

这些都反映在Job.xml中，但没有运气

将

mapred.map.tasks更改为4

不会反映在Job.xml中，我知道这不会反映，但只是尝试一下

我仍然不明白为什么这个奇特的数字513？

513=256个V节点拆分*2+1

这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前，每个VNode范围都被划分为至少一个分区，这就是为什么不建议将VNode用于分析群集的原因。

513=256个VNode分区*2+1

这让我猜你有一个2节点的集群。拆分的数量取决于两件事。集群中令牌范围的数量以及这些范围中的分区数量。目前，每个vnodes范围都被划分为至少一个部分，这就是为什么不建议将vnodes用于分析群集的原因。

我现在应该怎么做？你有他们解释这一点的文件吗？这太糟糕了，即使现在查询10行表，它将从n*2+1中进行拆分，那么cassandra.input.split.size、page size所有这些参数有什么用？我可以尝试更改任何输入格式吗？或者不使用VNode（但每个节点至少有一个拆分），或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射，这取决于令牌范围的数量或VNode的数量？更改输入格式类也不起作用？我正在尝试将InputFormat类更改为CqlPagingInputFormat，如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动，则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小？它总是取决于表格大小，但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行，拆分大小为20k，您将得到5000个拆分。我现在该怎么办？你有他们解释这一点的文件吗？这太糟糕了，即使现在查询10行表，它将从n*2+1中进行拆分，那么cassandra.input.split.size、page size所有这些参数有什么用？我可以尝试更改任何输入格式吗？或者不使用VNode（但每个节点至少有一个拆分），或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射，这取决于令牌范围的数量或VNode的数量？更改输入格式类也不起作用？我正在尝试将InputFormat类更改为CqlPagingInputFormat，如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动，则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小？它总是取决于表格大小，但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行，拆分大小为20k，您将得到5000个拆分。我现在该怎么办？你有他们解释这一点的文件吗？这太糟糕了，即使现在查询10行表，它将从n*2+1中进行拆分，那么cassandra.input.split.size、page size所有这些参数有什么用？我可以尝试更改任何输入格式吗？或者不使用VNode（但每个节点至少有一个拆分），或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射，这取决于令牌范围的数量或VNode的数量？更改输入格式类也不起作用？我正在尝试将InputFormat类更改为CqlPagingInputFormat，如果我禁用Vnodes并通过在2节点集群中生成令牌再次重新启动，则建议在DSE中仅使用高记录表来运行分析。它需要2个贴图还是取决于表格大小？它总是取决于表格大小，但有一个最小值。该最小值是集群中的令牌范围数。如果您的表有10万行，拆分大小为20k，您将得到5000个拆分。我现在该怎么办？你有他们解释这一点的文件吗？这太糟糕了，即使现在查询10行表，它将从n*2+1中进行拆分，那么cassandra.input.split.size、page size所有这些参数有什么用？我可以尝试更改任何输入格式吗？或者不使用VNode（但每个节点至少有一个拆分），或者在超过10行上使用map reduce。Map reduce用于100s的数千行和批量操作。然后通过PIG或Hive从Cassandra获取输入将运行常量映射，这取决于令牌范围的数量或VNode的数量？更改输入格式类也不起作用？我正在尝试将InputFormat类更改为CqlPagingInputForma