Hadoop 在cassandra群集上使用配置单元映射reduce_Hadoop_Cassandra_Hive_Datastax Enterprise

Hadoop 在cassandra群集上使用配置单元映射reduce

hadoop cassandra hive

Hadoop 在cassandra群集上使用配置单元映射reduce,hadoop,cassandra,hive,datastax-enterprise,Hadoop,Cassandra,Hive,Datastax Enterprise,您好，我正在使用datastax enterprise进行hadoop和cassandra集成。我已经配置了3个cassandra节点和2个analytics节点（配置单元将在其上运行）因此，我感到困惑的是，如果有一些数据不存在于蜂巢节点上，而是存在于cassandra节点上，那么它在map reduce期间不会被处理，或者map reduce将从cassandra节点提取数据并运行map reduce。请帮忙所以我有4台机器（复制系数3）他们不应该每人拥有25%的股份吗此外，我现在认

您好，我正在使用datastax enterprise进行hadoop和cassandra集成。我已经配置了3个cassandra节点和2个analytics节点（配置单元将在其上运行）

因此，我感到困惑的是，如果有一些数据不存在于蜂巢节点上，而是存在于cassandra节点上，那么它在map reduce期间不会被处理，或者map reduce将从cassandra节点提取数据并运行map reduce。请帮忙

所以我有4台机器（复制系数3）

他们不应该每人拥有25%的股份吗

此外，我现在认为数据将在所有节点中复制，而不仅仅是在3个节点中。DSE将确保将数据集的完整副本复制到您指定为分析的任何一组节点。所以这通常不是问题。如果有足够多的分析节点失败，它可能必须转到非分析节点以获取数据。。。但最好建议您将分析节点重新联机。

谢谢您的回答。但我的数据所有者身份并没有得到很好的保护。您是否可以提出建议。“DSE将确保将数据集的完整副本复制到…[分析节点]”。这种行为是否有记录？

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)