Nosql 混合科学与技术的数据库建议;关系数据?
我有一个将科学数据(即双矩阵和向量)与关系数据混合在一起的强大用例,并将其用作分布式计算的数据源,例如MapReduce,hadoop等。到目前为止,我一直使用自定义HDF模式和Postgres中的关系数据将我的科学数据存储在HDF5文件中,但由于此设置的可扩展性不太好,我想知道是否有一种更为NoSQL混合的方法来支持此数据的异构性 e、 g.我的用例是分发一个复杂的流程,其中包括:Nosql 混合科学与技术的数据库建议;关系数据?,nosql,bigdata,hdf5,scientific-computing,Nosql,Bigdata,Hdf5,Scientific Computing,我有一个将科学数据(即双矩阵和向量)与关系数据混合在一起的强大用例,并将其用作分布式计算的数据源,例如MapReduce,hadoop等。到目前为止,我一直使用自定义HDF模式和Postgres中的关系数据将我的科学数据存储在HDF5文件中,但由于此设置的可扩展性不太好,我想知道是否有一种更为NoSQL混合的方法来支持此数据的异构性 e、 g.我的用例是分发一个复杂的流程,其中包括: 从时间序列数据库提供程序加载GB数据 将时间序列链接到静态数据,例如符号信息、到期日、到期日等 启动一系列科学计
这些步骤需要一个能够处理关系数据和科学数据的分布式数据库。一种可能是将科学数据存储在HDF5中,然后将其作为BLOB列放在关系数据库中,但这是一种误用。另一种方法是将HDF5结果存储在磁盘中,并有一个关系数据库链接到它,但我们失去了自我控制。但是,这两种方法都无法在HPC节点中分配直接访问的数据,因为数据需要从中心节点提取,这并不理想 我不确定是否能给出正确的解决方案,但我们有类似的设置 我们将元信息存储在RBDMS(postgresql)中,实际科学数据存储在HDF5文件中。
我们在HPC上运行了一些分析。具体做法如下:
REST
从RDBMS数据库检索元信息,并在HPC上暂存文件,然后在集群上创建PBS
作业李>
PBS
作业后,将带有作业id的消息发送回message broker,以存储在RBDS数据库中李>
我会用HDF5格式保存它们。对于数据库和文件系统,可以有不同的备份策略 还有几个额外的指针:
- 您可以将所有内容(RBMS和HDF5存储)隐藏在
接口后面。这可能会解决你的遏制问题REST
- 如果您想将所有内容存储在
DB中,我建议您查看NoSQL
。它可以很好地使用,它是开箱即用的,并且它还有一个Elasticsearch