Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 在卡桑德拉,把一张大桌子分成多张小桌子?_Hadoop_Cassandra - Fatal编程技术网

Hadoop 在卡桑德拉,把一张大桌子分成多张小桌子?

Hadoop 在卡桑德拉,把一张大桌子分成多张小桌子?,hadoop,cassandra,Hadoop,Cassandra,来自MongoDB的背景,我们倾向于根据周将数据的摄取分为多个集合(其中包含相同类型的数据)。这完全取决于我们指数的表现 考虑在Cassandra中对同一概念进行建模,是否值得做同样的事情,并基于时间段创建多个表?因此,也许每周的表再次 是否有任何性能提升 我也问这个问题,因为我对Hadoop集成的研究,我可能只想映射/减少某几个星期的数据,而不是所有的数据,从我所能说的,这是隔离我们想要映射的数据的最好方法 提前感谢您对此的任何意见。这不是必需的。但是,需要注意的是,不应该对Cassandra

来自MongoDB的背景,我们倾向于根据周将数据的摄取分为多个集合(其中包含相同类型的数据)。这完全取决于我们指数的表现

考虑在Cassandra中对同一概念进行建模,是否值得做同样的事情,并基于时间段创建多个表?因此,也许每周的表再次

是否有任何性能提升

我也问这个问题,因为我对Hadoop集成的研究,我可能只想映射/减少某几个星期的数据,而不是所有的数据,从我所能说的,这是隔离我们想要映射的数据的最好方法


提前感谢您对此的任何意见。

这不是必需的。但是,需要注意的是,不应该对Cassandra使用二级索引,应该对数据进行建模,以匹配正在执行的查询

如果您经常希望每周执行一次操作,您可能希望每周存储数据。也就是说,每个分区有一周的数据。(一个分区可以包含多行)


您可能会发现,浏览几个月前拍摄的卡桑德拉视频介绍会很有帮助:

因为卡桑德拉的内部结构已经在发挥作用了。Cassandra中的节点持有大量PK(分区键)及其数据。如果您选择每周PK数据,则会对其进行排序。Cassandra将把特定PK的所有数据放在一个节点中


当您查询时,Cassandra知道哪个节点保存该PK的数据。它将只查询该节点并检索数据。所以卡桑德拉按照你的要求做了。

是的,我们就是这么做的!:)我只是想知道是否需要一组分区键,并在其中的行(列)上映射/减少。对于物流来说,将数据分开是否更好?我可以很容易地在一组钥匙上进行M/R吗?嗯。。。我不确定我是否在听。但考虑到Cassandra试图存储按顺序读取的数据,以避免出于性能原因进行磁盘查找,由于列/行按顺序排列,不拆分数据将减少磁盘查找。同样,我不确定这次我是否回答了你的问题。