每10分钟将数据从一个表加载到另一个表-Cassandra_Cassandra_Cassandra 2.1

每10分钟将数据从一个表加载到另一个表-Cassandra

cassandra

每10分钟将数据从一个表加载到另一个表-Cassandra,cassandra,cassandra-2.1,Cassandra,Cassandra 2.1,我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时，必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成我可以考虑将表A加载到CSV文件中，然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。任何想法或建议都将不胜感激谢谢， Arun对于较小数量的数据，您可以将其放入cron中：如果较大且运行较新版本的cassandra（3.8+）然后将数据重放到所需的表中（通过某种外部进程、脚本、应用程序等…）基本上已经有了一

我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时，必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成

我可以考虑将表A加载到CSV文件中，然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。任何想法或建议都将不胜感激

谢谢，

Arun

对于较小数量的数据，您可以将其放入cron中：

如果较大且运行较新版本的cassandra（3.8+）

然后将数据重放到所需的表中（通过某种外部进程、脚本、应用程序等…）

基本上已经有了一些工具，如：

您可以使用那里的示例来覆盖您的用例

但对于大多数用例来说，这是在应用程序级别处理的，使用cassandra写操作相对便宜。

抱歉，我离开了几天。我的要求实际上改变了。新的要求是Spark应该每10分钟提取一个文件，更新一个cassandra表并插入另一个cassandra表。如何使用Spark在Cassandra上进行CDC？没问题，Spark在数据处理方面具有多种多样性。最简单的方法就是按照这里描述的那样做：