Database 用于财务分析的数据存储
我正在建立一个系统来分析大量有关证券交易价格的财务数据。这方面的一个巨大挑战是,如果数据将在10兆字节的范围内,则确定对数据使用何种存储方法。将有许多关于数据的查询,例如取平均值、计算标准差,以及通过多列(如价格、时间、数量等)过滤的总和。Join语句不是必需的,但最好有 现在,我正在看infobright社区版、monetdb和greenplum社区版以进行评估。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些是必需的,而在这些版本中(使用多个服务器、insert/update语句等)没有这些功能Database 用于财务分析的数据存储,database,data-warehouse,greenplum,infobright,monetdb,Database,Data Warehouse,Greenplum,Infobright,Monetdb,我正在建立一个系统来分析大量有关证券交易价格的财务数据。这方面的一个巨大挑战是,如果数据将在10兆字节的范围内,则确定对数据使用何种存储方法。将有许多关于数据的查询,例如取平均值、计算标准差,以及通过多列(如价格、时间、数量等)过滤的总和。Join语句不是必需的,但最好有 现在,我正在看infobright社区版、monetdb和greenplum社区版以进行评估。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些是必需的,而在这些版本中(使用多个服务器、insert/update语句等)
在这种情况下,您会使用什么解决方案?与其他方案相比,它能带来什么好处?具有成本效益是一大优势。如果我必须为数据仓库解决方案付费,我会的,但我更愿意避免它,如果可能的话,选择开源/社区版路线。我认为您提到的任何数据库都可以满足您的要求。如果您要处理10 TB的数据,那么获得在MPP集群中运行的企业许可证可能是一种节省处理时间的好方法。此外,如果此DW将为您的组织执行重要的处理,那么拥有许可证意味着您将获得供应商的支持,这对许多企业都很重要。YMMV 一个更重要的问题是,您的数据摄取率将是什么样子?对于一个金融系统,我认为等式的很大一部分应该是在继续进行正常处理的同时将新数据加载到系统中的能力
我只熟悉你们候选人名单中的Greenplum,但我知道它在短时间内加载大量数据方面做得很好。GP还具有许多内置的统计和分析功能,您可以在DB内部本机运行,包括内置的SQL函数、MADLib、R等。Infobright提供快速查询性能,无需对大量数据进行调整、预测和索引。在数据加载方面,我见过这样的例子:每小时可以加载80TB的数据,每秒可以加载12000多个插入 它是如何工作的
免责声明:作者隶属于Infobright。事实上(同等)总和、平均值、STDEV——即使经过过滤——都不是数据挖掘。数据挖掘就是从一组数据中发现新的信息。统计数据是帮助这一过程的工具。我不认为这种对术语的强调是有益的,如果我们就此争论,将一事无成。这就像我说我不同意你的帖子,因为你错把统计数据当成了“统计学”——这是对技术性的不必要的强调。我的目标是使用这个数据库来发现新信息。此外,构建数据仓库解决方案时考虑到了数据挖掘。因此,数据挖掘的概念在这里是适用的。但是,我同意你的观点,“数据库”可能是这篇文章更好的标签。