Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cassandra 卡桑德拉数据文件比预期大得多_Cassandra - Fatal编程技术网

Cassandra 卡桑德拉数据文件比预期大得多

Cassandra 卡桑德拉数据文件比预期大得多,cassandra,Cassandra,我刚刚做了一个实验,加载了大约12个csv文件,重量约为5.2GB(压缩)。上传到Cassandra后,它们占用了64 GB的空间!(实际上大约128 GB,但这是由于复制系数为2) 坦率地说,我预计Cassandra的数据占用率甚至会低于原来的5.2 GB csv,因为: 1.Cassandra应该能够以二进制格式而不是ascii格式存储数据(主要是数字) 2.Cassandra应该将单个文件拆分为其列组成部分,并显著改进压缩 我对卡桑德拉完全陌生,这是一个实验。我完全可能误解了产品或配置错误

我刚刚做了一个实验,加载了大约12个csv文件,重量约为5.2GB(压缩)。上传到Cassandra后,它们占用了64 GB的空间!(实际上大约128 GB,但这是由于复制系数为2)

坦率地说,我预计Cassandra的数据占用率甚至会低于原来的5.2 GB csv,因为: 1.Cassandra应该能够以二进制格式而不是ascii格式存储数据(主要是数字) 2.Cassandra应该将单个文件拆分为其列组成部分,并显著改进压缩

我对卡桑德拉完全陌生,这是一个实验。我完全可能误解了产品或配置错误

是否预计5.2 GB的CSV最终将成为64 GB的cassandra文件

编辑:其他信息:

[cqlsh 5.0.1 | Cassandra 2.1.11 | CQL spec 3.2.1 | Native protocol v3]


[~]$ nodetool status
Datacenter: DC1
===============
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address      Load       Tokens  Owns    Host ID                                 Rack
UN  xx.x.xx.xx1  13.17 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx2  14.02 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx3  13.09 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx4  12.32 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx5  12.84 GB   256     ?       HOSTID  RAC1
UN  xx.x.xx.xx6  12.66 GB   256     ?       HOSTID  RAC1

du -h [director which contains sstables before they are loaded]: 67GB

什么版本?2.2和3.0之间有很大区别。是否也启用了压缩?你的模式是什么
nodetool表状态
output available?64 GB bychance是否包含提交日志?@ChrisLohfink I添加了版本信息
nodetool表状态对我来说似乎不存在。在您的评论之后,我查阅了表格压缩。看来我可以换桌子了。你知道有什么参考文献讨论过大小和写入速度的权衡吗?@jandorenhaus我认为提交日志不包括在大小中。在加载之前,我刚刚检查了准备sstables的目录。它们的大小也差不多。2.1是旧版本,请使用
nodetool cfstats
。如果您希望在2.1中减少存储空间,请使用
压缩存储
选项(虽然您永远无法修改架构,但会显著减少大小),并确保启用了压缩功能(应该启用)。它仍然可能比您输入的数据更大,一个
nodetool compact
可能有助于将其放在单个sstable中。什么版本?2.2和3.0之间有很大区别。是否也启用了压缩?你的模式是什么
nodetool表状态
output available?64 GB bychance是否包含提交日志?@ChrisLohfink I添加了版本信息
nodetool表状态对我来说似乎不存在。在您的评论之后,我查阅了表格压缩。看来我可以换桌子了。你知道有什么参考文献讨论过大小和写入速度的权衡吗?@jandorenhaus我认为提交日志不包括在大小中。在加载之前,我刚刚检查了准备sstables的目录。它们的大小也差不多。2.1是旧版本,请使用
nodetool cfstats
。如果您希望在2.1中减少存储空间,请使用
压缩存储
选项(虽然您永远无法修改架构,但会显著减少大小),并确保启用了压缩功能(应该启用)。它仍然可能比您输入的数据更大,一个
nodetool compact
可能有助于将其放在单个sstable中。