Database design 卡桑德拉的数据存储

Database design 卡桑德拉的数据存储,database-design,cassandra,Database Design,Cassandra,我目前正在努力使用正确的数据格式与卡桑德拉。我想这是因为它比标准的键值存储提供了更多的深度 我的数据格式当前定义如下: 不同应用程序的键空间 不同应用程序零件的柱族 在这些列中,我有数据 大多数数据以以下格式存储在单个列族中: Key: UUID-1|UUID-2|UUID-3 Value: Array of PHP Values 插入10万条条目后(感谢您更新问题 您可能应该阅读这篇关于这个问题的文章 使用相对较少的行进行基准测试不会告诉您关于大型数据集可伸缩性的任何信息。对数百万行运行

我目前正在努力使用正确的数据格式与卡桑德拉。我想这是因为它比标准的键值存储提供了更多的深度

我的数据格式当前定义如下:

  • 不同应用程序的键空间
  • 不同应用程序零件的柱族
  • 在这些列中,我有数据
大多数数据以以下格式存储在单个列族中:

Key: UUID-1|UUID-2|UUID-3
Value: Array of PHP Values

插入10万条条目后(感谢您更新问题

您可能应该阅读这篇关于这个问题的文章

使用相对较少的行进行基准测试不会告诉您关于大型数据集可伸缩性的任何信息。对数百万行运行这种测试并不困难

如果您目前正在测试,您可能应该升级到1.0分支(目前为1.0.7),因为这比0.7快得多

云服务器上的性能可能并不能很好地代表真实本地硬件上的性能——尽管云服务器是集群测试的一个好主意。请参阅


如果读取延迟是您最关心的问题,那么请确保您熟悉Cassandra中的缓存设置(缓存的键和缓存的行)-例如,请参阅。

您看到了什么性能,希望获得什么性能?您使用一个CF还是多个CF通常取决于您存储的数据的结构和所需的查询类型。您能否详细介绍数据的结构以及正在进行的读取查询的类型?的版本是什么Cassandra你在使用什么硬件?@DNA:我保存的PHP值数组包含一些字符串(大约10-20,每个字符串的长度为10-500)。我还编辑了我的问题(希望)以更好地解释我为什么问这个问题以及我的“担忧”在哪里来自。我正在我的测试环境中使用0.7.6-2版。谢谢你的Netflix文章。我将更多的数据放入数据库,在一百万条条目之后,数据量似乎不再增加。大约10亿条条目的读取时间仍然保持在0.002s左右。今天晚些时候,我升级到了最新的Cassandra版本然后重新运行测试。读取时间在~0.0016左右保持不变。线性增加似乎在达到“良好大小”数据后停止。
   Entries | Read Time
         0 |   0.0010
   150.000 |   0.0013
   300.000 |   0.0014
   500.000 |   0.0016
   750.000 |   0.0019
 1.000.000 |   0.0022