Hadoop 在cassandra群集上使用配置单元映射reduce

Hadoop 在cassandra群集上使用配置单元映射reduce,hadoop,cassandra,hive,datastax-enterprise,Hadoop,Cassandra,Hive,Datastax Enterprise,您好,我正在使用datastax enterprise进行hadoop和cassandra集成。 我已经配置了3个cassandra节点和2个analytics节点(配置单元将在其上运行) 因此,我感到困惑的是,如果有一些数据不存在于蜂巢节点上,而是存在于cassandra节点上,那么它在map reduce期间不会被处理,或者map reduce将从cassandra节点提取数据并运行map reduce。请帮忙 所以我有4台机器(复制系数3) 他们不应该每人拥有25%的股份吗 此外,我现在认

您好,我正在使用datastax enterprise进行hadoop和cassandra集成。 我已经配置了3个cassandra节点和2个analytics节点(配置单元将在其上运行)

因此,我感到困惑的是,如果有一些数据不存在于蜂巢节点上,而是存在于cassandra节点上,那么它在map reduce期间不会被处理,或者map reduce将从cassandra节点提取数据并运行map reduce。请帮忙

所以我有4台机器(复制系数3)

他们不应该每人拥有25%的股份吗
此外,我现在认为数据将在所有节点中复制,而不仅仅是在3个节点中。DSE将确保将数据集的完整副本复制到您指定为分析的任何一组节点。所以这通常不是问题。如果有足够多的分析节点失败,它可能必须转到非分析节点以获取数据。。。但最好建议您将分析节点重新联机。

谢谢您的回答。但我的数据所有者身份并没有得到很好的保护。您是否可以提出建议。“DSE将确保将数据集的完整副本复制到…[分析节点]”。这种行为是否有记录?
machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)