基于cassandra数据库的Hadoop_Hadoop_Cassandra_Hive

基于cassandra数据库的Hadoop

hadoop cassandra hive

基于cassandra数据库的Hadoop,hadoop,cassandra,hive,Hadoop,Cassandra,Hive,我使用Cassandra存储数据，使用hive处理数据。我有5台安装了cassandra的机器和2台用作分析节点（hive运行的地方）的机器所以我想问的是，hive do map是否只在两台机器（分析节点）上减少并将数据带到那里，或者它将流程/计算移动到5个cassandra节点，并在这些机器上处理/计算数据（我知道的是在hadoop中，流程移动到数据而不是数据到处理）如果你有兴趣与Hadoop和Cassandra联姻，第一个链接应该是围绕这一概念建立的公司。他们构建并支持hadoop，

我使用Cassandra存储数据，使用hive处理数据。我有5台安装了cassandra的机器和2台用作分析节点（hive运行的地方）的机器

所以我想问的是，hive do map是否只在两台机器（分析节点）上减少并将数据带到那里，或者它将流程/计算移动到5个cassandra节点，并在这些机器上处理/计算数据（我知道的是在hadoop中，流程移动到数据而不是数据到处理）

如果你有兴趣与Hadoop和Cassandra联姻，第一个链接应该是围绕这一概念建立的公司。他们构建并支持hadoop，HDF被cassandra取代。据我所知，它们确实具有数据位置：

如果对Cassandra运行MapReduce，那么Hadoop和Cassandra数据局部性有一个很好的答案

关于你的问题-有一个权衡： a）如果在单独的节点上运行Hadoop/Hive，则会丢失数据位置，因此数据吞吐量会受到网络带宽的限制
b）如果您在cassandra运行的相同节点上运行hadoop/Hive，您可以获得数据位置，但是Hive查询背后的MapReduce处理可能会阻塞您的网络（和其他资源），从而影响cassandra的服务质量

我的建议是，如果您的cassandra集群的性能非常关键，则使用单独的配置单元节点
如果您的cassandra主要用作数据存储，而不处理实时请求，那么在每个节点上运行配置单元将提高性能和硬件利用率