Amazon ec2 关于大型数据仓库系统的建议
我需要存储大量数据,并且能够生成报告——每一个数据都代表网站上的一个事件(我们说的是每秒50多个数据,因此显然需要聚合较旧的数据) 我正在评估实现此功能的方法,显然它需要可靠,并且应该尽可能易于扩展。还应该能够以灵活高效的方式从数据生成报告 我希望一些SOER具有此类软件的经验,可以提出建议,和/或指出缺陷Amazon ec2 关于大型数据仓库系统的建议,amazon-ec2,data-warehouse,Amazon Ec2,Data Warehouse,我需要存储大量数据,并且能够生成报告——每一个数据都代表网站上的一个事件(我们说的是每秒50多个数据,因此显然需要聚合较旧的数据) 我正在评估实现此功能的方法,显然它需要可靠,并且应该尽可能易于扩展。还应该能够以灵活高效的方式从数据生成报告 我希望一些SOER具有此类软件的经验,可以提出建议,和/或指出缺陷 理想情况下,我希望将其部署到EC2上。哇。你打开了一个巨大的话题 我脑子里就有几件事 仔细考虑事务部分的插入和报告部分的读取模式,如果数据量很大,最好将它们分开 仔细观察您可以容忍的事务实时
理想情况下,我希望将其部署到EC2上。哇。你打开了一个巨大的话题 我脑子里就有几件事
哇。。这是一个巨大的话题 让我从数据库开始。首先,如果你想获得大量的数据,就要做些好事。我喜欢Oracle和Teradata 其次,记录事务性数据和报告/分析之间存在明确的区别。将事务数据放在一个区域中,然后按照常规计划将其汇总到报告区域(模式) 我相信你可以用两种方法来解决这个问题
- 花钱解决这个问题:购买一流的软件(数据库、报告软件)并雇佣一些技术人员来帮助解决
- 采取自产自销的方法:现在只建造你需要的东西,然后有机地发展整个东西。从一个简单的数据库开始,构建一个web报告框架。有很多开源工具和便宜的机构做这项工作
就EC2方法而言。。我不确定这是否适合数据存储策略。处理是有限的,这是EC2强大的地方。您的主要目标是高效的存储和检索 我很惊讶这里没有一个答案涉及Hadoop和HDFS——我认为这是因为程序员qa也是如此,而你的问题实际上是一个数据科学问题 如果您要处理大量查询和大量处理时间,您将使用HDFS(EC上的分布式存储格式)存储数据,并在商品硬件上运行批量查询(即分析)
然后,您将根据需要提供尽可能多的EC2实例(数百或数千个,取决于您的数据处理需求有多大),并针对您的数据运行map reduce queires以生成报告。谢谢!我听到其他人推荐Oracle和Microsoft的解决方案。我可以推断开源数据库不能胜任这项任务吗?我想你可以推断,在你看来,还有很多现成的解决方案是针对Oracle/MSSQL优化的。如果我说开源数据库不能胜任这项任务,那么我将被投票潮淹没。现实情况(正确或错误)是,MSSQL和Oracle尤其是非常稳定的经验证的数据库平台,通常在您的生命垂危时是首选。