Cassandra 针对频繁查询的大数据解决方案
我需要一个大数据存储解决方案,用于批量插入不经常发生的非规范化数据和查询频繁发生的插入数据Cassandra 针对频繁查询的大数据解决方案,cassandra,bigdata,Cassandra,Bigdata,我需要一个大数据存储解决方案,用于批量插入不经常发生的非规范化数据和查询频繁发生的插入数据 我看过Cassandra,觉得它对批量插入不是很好,但对于查询来说是一个不错的解决方案。此外,如果有一种基于数据属性单独隔离数据的机制也很好。正如您提到的Cassandra,我将讨论它: 您可以不打补丁地插入,还是由系统强制执行?如果你能插入未打补丁的,卡桑德拉可能会很容易处理它 成批插入也应该可以由Cassandra节点处理,但这不会在所有节点之间正确分配负载(注意:我说的是负载平衡,而不是数据平衡,这
我看过Cassandra,觉得它对批量插入不是很好,但对于查询来说是一个不错的解决方案。此外,如果有一种基于数据属性单独隔离数据的机制也很好。正如您提到的Cassandra,我将讨论它: 您可以不打补丁地插入,还是由系统强制执行?如果你能插入未打补丁的,卡桑德拉可能会很容易处理它 成批插入也应该可以由Cassandra节点处理,但这不会在所有节点之间正确分配负载(注意:我说的是负载平衡,而不是数据平衡,这只取决于分区键设置)。如果您对Cassandra不太熟悉,可以告诉我们您的数据结构和查询类型,我们可以建议您如何使用Cassandra的数据模型来适应它
对于问题的筛选部分,Cassandra有聚类键和二级索引,这基本上类似于向聚类键添加另一个列配置,这样您就可以同时进行查询。但是考虑到Cassandra,问题是数据必须有多大或多小才能确保未匹配的插入不会引起负载(平衡)问题。您了解Cassandra的协调器节点概念吗?Cassandra的默认负载平衡策略是在所有节点之间分割传入的查询,以便它们可以充当多个并行协调器节点。为什么要分批处理插入内容?是为了获得更好的插入时间还是因为流量问题?Cassandra通常处理成批插入比处理非成批插入慢。