Mysql 分布式数据库用例_Mysql_Database Partitioning_Distributed System_Large Data_Bigdata

Mysql 分布式数据库用例

mysql

Mysql 分布式数据库用例,mysql,database-partitioning,distributed-system,large-data,bigdata,Mysql,Database Partitioning,Distributed System,Large Data,Bigdata,目前我有一个mysql数据库，我每年收集的数据是5 TB。我会一直保存我的数据，我不想很早就删除某些内容。我问自己是否应该使用分布式数据库，因为我的数据每年都会增长。5年后，我将有25个没有索引的Terrabyte。（只是计算了我每天保存的原始数据）我有5个表，大多数查询是多个表上的联接。我需要以特定的时间戳访问多行上的1-2列分布式数据库是否比单个mysql数据库更受欢迎分区将很困难，因为我所有的表都是高度连接的我知道这取决于查询和数据库表的设计，我还可以拥有一个分布式mysql数

目前我有一个mysql数据库，我每年收集的数据是5 TB。我会一直保存我的数据，我不想很早就删除某些内容。我问自己是否应该使用分布式数据库，因为我的数据每年都会增长。5年后，我将有25个没有索引的Terrabyte。（只是计算了我每天保存的原始数据）

我有5个表，大多数查询是多个表上的联接。我需要以特定的时间戳访问多行上的1-2列

分布式数据库是否比单个mysql数据库更受欢迎

分区将很困难，因为我所有的表都是高度连接的

我知道这取决于查询和数据库表的设计，我还可以拥有一个分布式mysql数据库。我只是想知道什么时候应该考虑分布式数据库。这是一个用例吗？或者mysql可以处理这个大数据集吗

编辑：

平均而言，我将有1500个客户端每秒写入数据，它们会影响所有表
我只需要旧数据集进行分析。像机器学习和模式匹配
客户机还应该能够看到历史数据

如果索引是
```
AUTO_INCREMENT
```
或
```
TIMESTAMP
```
（或类似内容），则被修改的块“始终”位于BTree的“末尾”。因此，实际上所有的读写操作都是可缓存的。也就是说，更新这样一个索引的开销非常低
如果索引是“随机”的，例如UUID、GUID、md5等，那么要更新的块很少在缓存中找到。也就是说，为这一行更新这一索引可能要花费一对IOPs。即使是SSD，你也可能跟不上。（假设您没有几TB的RAM。）
如果索引介于顺序和随机之间（比如，某种“名称”），那么BTree中可能有数千个“热点”，这些热点可能是可缓存的

文件，请选择

分区