Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
每10分钟将数据从一个表加载到另一个表-Cassandra_Cassandra_Cassandra 2.1 - Fatal编程技术网

每10分钟将数据从一个表加载到另一个表-Cassandra

每10分钟将数据从一个表加载到另一个表-Cassandra,cassandra,cassandra-2.1,Cassandra,Cassandra 2.1,我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时,必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成 我可以考虑将表A加载到CSV文件中,然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。 任何想法或建议都将不胜感激 谢谢, Arun对于较小数量的数据,您可以将其放入cron中: 如果较大且运行较新版本的cassandra(3.8+) 然后将数据重放到所需的表中(通过某种外部进程、脚本、应用程序等…) 基本上已经有了一

我们每10分钟有一个数据流到达表a。没有保存历史。每次在表a中加载数据时,必须将现有数据刷新到新表B。这可以在Cassandra中动态完成还是自动完成

我可以考虑将表A加载到CSV文件中,然后在每次刷新表A时将其加载回表B。但是我想在数据库级别本身做一些事情。 任何想法或建议都将不胜感激

谢谢,
Arun

对于较小数量的数据,您可以将其放入cron中:

如果较大且运行较新版本的cassandra(3.8+)

然后将数据重放到所需的表中(通过某种外部进程、脚本、应用程序等…)

基本上已经有了一些工具,如:

您可以使用那里的示例来覆盖您的用例


但对于大多数用例来说,这是在应用程序级别处理的,使用cassandra写操作相对便宜。

抱歉,我离开了几天。我的要求实际上改变了。新的要求是Spark应该每10分钟提取一个文件,更新一个cassandra表并插入另一个cassandra表。如何使用Spark在Cassandra上进行CDC?没问题,Spark在数据处理方面具有多种多样性。最简单的方法就是按照这里描述的那样做: