Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform googlecloudbigtable压缩_Google Cloud Platform_Google Cloud Bigtable - Fatal编程技术网

Google cloud platform googlecloudbigtable压缩

Google cloud platform googlecloudbigtable压缩,google-cloud-platform,google-cloud-bigtable,Google Cloud Platform,Google Cloud Bigtable,我正在研究BigTable如何压缩我的数据 我已将1,5GB加载到1个表中;大约500k行包含一列,平均每个单元容纳约3kb。 在进一步的测试中,更多的列将被添加到这些行中,这些行包含相似大小的相似数据 每个单元格中的数据当前是一个JSON序列化的字典数组[avg上的10个元素],如: [{ "field1": "100.10", "field2": "EUR", "field3": "10000", "field4": "0", "field5": "1

我正在研究BigTable如何压缩我的数据

我已将1,5GB加载到1个表中;大约500k行包含一列,平均每个单元容纳约3kb。 在进一步的测试中,更多的列将被添加到这些行中,这些行包含相似大小的相似数据

每个单元格中的数据当前是一个JSON序列化的字典数组[avg上的10个元素],如:

[{
    "field1": "100.10",
    "field2": "EUR",
    "field3": "10000",
    "field4": "0",
    "field5": "1",
    "field6": "1",
    "field7": "0",
    "field8": "100",
    "field9": "110.20",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T10:10:10Z"
},{
    "field1": "200.20",
    "field2": "EUR",
    "field3": "10001",
    "field4": "0",
    "field5": "1",
    "field6": "0",
    "field7": "0",
    "field8": "100",
    "field9": "220.30",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T20:20:20Z"
}, ...]
BigTable控制台向我显示集群拥有1,2GB的容量。因此,它将插入的1,5GB I压缩到原始大小的80%左右。gzip压缩存储在单元格中的典型字符串时,压缩率约为20%

因此,BigTable的这种压缩性能对我来说似乎很低,因为我插入的数据包含很多重复值(例如字典键)。我知道BigTable用压缩来换取速度,但我希望它能在我的数据上表现得更好

对于上面这样的数据,80%的压缩比可以吗?或者,预期的压缩比是否较低? 除了重塑我上传的数据,还有什么技术可以改进压缩吗


谢谢

预期的值肯定较低。我们发现并修复了一个与Cloud Bigtable中使用压缩相关的bug,该产品现已投入生产


对于像您发布的示例这样的数据,您现在应该看到更高的压缩比和更低的磁盘使用率

我们将在下周初给你一个答案。嗨,Mathias-能给我发封电子邮件让我们离线聊天吗?谢谢。请注意:此数据集的磁盘使用量现在为140 MB。