每10分钟将数据从一个表加载到另一个表-Cassandra
我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时,必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成 我可以考虑将表A加载到CSV文件中,然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。 任何想法或建议都将不胜感激 谢谢,每10分钟将数据从一个表加载到另一个表-Cassandra,cassandra,cassandra-2.1,Cassandra,Cassandra 2.1,我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时,必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成 我可以考虑将表A加载到CSV文件中,然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。 任何想法或建议都将不胜感激 谢谢, Arun对于较小数量的数据,您可以将其放入cron中: 如果较大且运行较新版本的cassandra(3.8+) 然后将数据重放到所需的表中(通过某种外部进程、脚本、应用程序等…) 基本上已经有了一
Arun对于较小数量的数据,您可以将其放入cron中: 如果较大且运行较新版本的cassandra(3.8+) 然后将数据重放到所需的表中(通过某种外部进程、脚本、应用程序等…) 基本上已经有了一些工具,如: 您可以使用那里的示例来覆盖您的用例
但对于大多数用例来说,这是在应用程序级别处理的,使用cassandra写操作相对便宜。抱歉,我离开了几天。我的要求实际上改变了。新的要求是Spark应该每10分钟提取一个文件,更新一个cassandra表并插入另一个cassandra表。如何使用Spark在Cassandra上进行CDC?没问题,Spark在数据处理方面具有多种多样性。最简单的方法就是按照这里描述的那样做: