Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
基于cassandra数据库的Hadoop_Hadoop_Cassandra_Hive - Fatal编程技术网

基于cassandra数据库的Hadoop

基于cassandra数据库的Hadoop,hadoop,cassandra,hive,Hadoop,Cassandra,Hive,我使用Cassandra存储数据,使用hive处理数据。 我有5台安装了cassandra的机器和2台用作分析节点(hive运行的地方)的机器 所以我想问的是,hive do map是否只在两台机器(分析节点)上减少并将数据带到那里,或者它将流程/计算移动到5个cassandra节点,并在这些机器上处理/计算数据(我知道的是在hadoop中,流程移动到数据而不是数据到处理) 如果你有兴趣与Hadoop和Cassandra联姻,第一个链接应该是围绕这一概念建立的公司。 他们构建并支持hadoop,

我使用Cassandra存储数据,使用hive处理数据。 我有5台安装了cassandra的机器和2台用作分析节点(hive运行的地方)的机器
所以我想问的是,hive do map是否只在两台机器(分析节点)上减少并将数据带到那里,或者它将流程/计算移动到5个cassandra节点,并在这些机器上处理/计算数据(我知道的是在hadoop中,流程移动到数据而不是数据到处理)

如果你有兴趣与Hadoop和Cassandra联姻,第一个链接应该是围绕这一概念建立的公司。 他们构建并支持hadoop,HDF被cassandra取代。 据我所知,它们确实具有数据位置:

如果对Cassandra运行MapReduce,那么Hadoop和Cassandra数据局部性有一个很好的答案

关于你的问题-有一个权衡: a) 如果在单独的节点上运行Hadoop/Hive,则会丢失数据位置,因此数据吞吐量会受到网络带宽的限制
b) 如果您在cassandra运行的相同节点上运行hadoop/Hive,您可以获得数据位置,但是Hive查询背后的MapReduce处理可能会阻塞您的网络(和其他资源),从而影响cassandra的服务质量

我的建议是,如果您的cassandra集群的性能非常关键,则使用单独的配置单元节点
如果您的cassandra主要用作数据存储,而不处理实时请求,那么在每个节点上运行配置单元将提高性能和硬件利用率