Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cassandra中的大容量加载、脏读问题及其在集群中的影响_Cassandra_Production Environment_Bulk Load_Dirtyread - Fatal编程技术网

Cassandra中的大容量加载、脏读问题及其在集群中的影响

Cassandra中的大容量加载、脏读问题及其在集群中的影响,cassandra,production-environment,bulk-load,dirtyread,Cassandra,Production Environment,Bulk Load,Dirtyread,我们的用例是将批量数据加载到我们的实时生产Cassandra集群中。我们必须每天在Cassandra中加载大量数据。我们偶然发现了一台装载机。我们几乎没有关于同一问题的疑问: 1:当我们使用sstableloader将批量数据加载到我们的实时生产集群中时,我们是否有脏读的机会?(基本上sstableloader是一次加载所有数据还是在获取数据时继续更新?)脏读在我们的生产环境中是不可接受的 2:当我们将批量数据加载到实时生产集群中时,它是否会影响集群可用性?(基本上,因为我们正在将大量数据加载到

我们的用例是将批量数据加载到我们的实时生产Cassandra集群中。我们必须每天在Cassandra中加载大量数据。我们偶然发现了一台装载机。我们几乎没有关于同一问题的疑问:

1:当我们使用sstableloader将批量数据加载到我们的实时生产集群中时,我们是否有脏读的机会?(基本上sstableloader是一次加载所有数据还是在获取数据时继续更新?)脏读在我们的生产环境中是不可接受的

2:当我们将批量数据加载到实时生产集群中时,它是否会影响集群可用性?(基本上,因为我们正在将大量数据加载到实时生产集群中,它是否会影响其性能?我们是否需要增加集群节点,以使其在批量加载过程中高度可用?)

3:如果使用sstableloader在实时生产集群中存在脏读的可能性,请建议可避免此问题的替代工具。我们希望所有批量数据同时显示,而不是增量数据

谢谢

  • SStableloader以增量方式加载数据。它不会一次装入所有内容

  • 这肯定会产生影响。这种影响的严重程度取决于流入的数据的大小以及许多其他因素。您可以使用sstableloader中的选项来限制吞吐量,这在这方面可能会有所帮助。在测试集群上运行此用例,并查看sstableloader对数据集的影响

  • 除非您愿意停机,否则在数据“脏”的情况下,如果不给出至少一个小的时间段,就无法实现这一点


  • 例如,对于更冒险的情况,您可能会将SSTables直接添加到所有节点的数据文件夹中并运行。但是,这不会完全同时进行,因此在短时间内容易出现脏读或失败读。

    感谢您的及时回复!根据Datastax的这篇文章(请查看注释部分),在批量加载成功后,加载的SSTables是可见的:根据这一点,我们不应该有肮脏的阅读问题。你能确认一下吗?它们在批量装载后可见,但在运输过程中也可见。SSTableloader不保证以隔离方式插入数据。