Apache spark 在cassandra系统表中是否有检查计数的方法?我们可以在哪里检查最新插入的元数据?

Apache spark 在cassandra系统表中是否有检查计数的方法?我们可以在哪里检查最新插入的元数据?,apache-spark,cassandra,datastax,Apache Spark,Cassandra,Datastax,我正在使用oracle到cassandra的迁移工具,我想维护一个包含oracle count和cassandra count列的验证表,这样我就可以验证迁移作业,在cassandra中,系统是否可以维护最近执行/插入的查询计数?特定表的总计数?cassandra系统表中是否有存储空间?如果是,是什么?如果没有,请建议一些方法来设计数据迁移的验证框架 在cassandra中,是否有办法在任何系统表中获取最新的查询插入记录计数和表的总计数,从中我们可以读取计数,而不是对表执行计数(*)查询?cas

我正在使用oracle到cassandra的迁移工具,我想维护一个包含oracle count和cassandra count列的验证表,这样我就可以验证迁移作业,在cassandra中,系统是否可以维护最近执行/插入的查询计数?特定表的总计数?cassandra系统表中是否有存储空间?如果是,是什么?如果没有,请建议一些方法来设计数据迁移的验证框架


在cassandra中,是否有办法在任何系统表中获取最新的查询插入记录计数和表的总计数,从中我们可以读取计数,而不是对表执行计数(*)查询?cassandra是否在内部任何地方维护计数的元数据?如果是,我们可以在哪里检查最新插入的元数据,即哪些系统表?

cassandra是分布式系统,没有地方可以收集每个表的计数。您可以从
系统中获得一些估计值。size\u估计值
,但它将显示每个范围内仅计算分区数及其大小

对于您要求的这种框架,您可能需要开发定制的Spark代码(最简单的方法),该代码将执行行计数和其他检查。Spark针对有效的数据访问进行了高度优化,可能比编写自定义代码更可取


此外,在迁移过程中,考虑使用一致性级别大于<代码>一个< /C> >以确保至少几个节点确认数据的写入。尽管如此,这取决于迁移作业的数据量和时间要求。

您能否进一步回答您的问题-什么最重要?你想干什么achieve@AlexOtt,cassandra中表的行数,我正在使用oracle到cassandra的迁移工具,我想维护一个包含列oracle count和cassandra count的验证表,以便验证迁移作业,在cassandra中,系统是否有办法维护最近执行/插入的查询计数?特定表的总计数?cassandra系统表中是否有存储空间?如果是,是什么?如果没有,请建议一些设计数据迁移验证框架的方法。您能用这些信息更新您的问题吗?@AlexOtt在cassandra中有没有办法,获取任何系统表中最新的查询插入记录计数和表的总计数,从中我们可以读取计数,而不是对表执行计数(*)查询?cassandra是否在内部任何地方维护计数的元数据?如果是,我们可以在哪里检查最新插入的元数据,即哪些系统表?我更新了,谢谢。