Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/visual-studio/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cassandra SSTables生成内存消耗/可用压缩?_Cassandra_Bulk Load - Fatal编程技术网

Cassandra SSTables生成内存消耗/可用压缩?

Cassandra SSTables生成内存消耗/可用压缩?,cassandra,bulk-load,Cassandra,Bulk Load,我正在使用DataStax网站提供的批量加载示例生成Cassandra SSTables 我的问题是SSTable文件理想地消耗了多少磁盘空间?在我的例子中,我的数据CSV文件是40 GB,SStables为此特定文件消耗的总磁盘空间约为250GB。在创建这些表时,我是否缺少一些东西?是否有任何压缩选项可用于生成SST表 第二步,我使用sstableloader加载sstables,效果非常好,数据可以在CQL中查询 另外,我想知道除了我上面提到的bulkload方法之外,是否还有其他技术可以将

我正在使用DataStax网站提供的批量加载示例生成Cassandra SSTables

我的问题是SSTable文件理想地消耗了多少磁盘空间?在我的例子中,我的数据CSV文件是40 GB,SStables为此特定文件消耗的总磁盘空间约为250GB。在创建这些表时,我是否缺少一些东西?是否有任何压缩选项可用于生成SST表

第二步,我使用sstableloader加载sstables,效果非常好,数据可以在CQL中查询


另外,我想知道除了我上面提到的bulkload方法之外,是否还有其他技术可以将大数据导入cassandra。

首先检查是否启用了压缩。如何检查

如果sstable被压缩,它将有一个压缩信息.db 组件(即构成sstable的文件之一,以结尾) --压缩信息.db)。如果没有这样的文件,那就不是了 压缩的

有关更多压缩相关信息


转到最后一个问题,使用COPY命令可以替代批量加载方法。请参见

谢谢阿比。我了解在创建柱族期间可以指定的压缩参数;但这会影响我使用Cassandra IO API生成SSTABLE的方式吗?生成sstables所需的唯一参数是键空间和列族名称。另外,我以前也尝试过COPY命令,但它要求CSV有一个引用的结构,比如“aa”,“bb”。。。你能分享一下你用什么技术在Cassandra中加载数据吗?是的,这肯定会有效果。试试看,不,除了这两个,没有其他机制可以加载。@amey我不使用批量加载作业。我更喜欢使用线程手动执行,因为我必须维护大量计数器列。那么您是否使用Hector/Astyanax执行批量插入?性能如何?从某种意义上讲,10GB数据需要多长时间?取决于系统规格,在我的情况下,我最多可以每秒写入2000条记录,因为我的记录非常复杂。现在您可以想象加载10GB数据的确切时间