Hadoop 大容量事务数据信息模式生成

Hadoop 大容量事务数据信息模式生成,hadoop,distributed-computing,large-data-volumes,Hadoop,Distributed Computing,Large Data Volumes,我试图从大量事务数据中找出信息丰富的数据模式 通常情况下,我的数据是一组具有明确定义的列的记录(如发件人、收件人、金额、货币地址等-我有大约40-50个不同的列),数据量将是数百万(可能是1亿到1亿)条记录,我的目标是从这类记录中生成信息丰富的交易模式-谁购买的特定物品最多,交易量最大的收件人、费用模式、从同一发件人获得更多交易的人等 早些时候,我计划在关系数据库(Oracle/MySQL)中加载数据,并编写复杂的SQL来获取这些信息,但在我的概念验证过程中,通过查看卷,它似乎没有多大的可伸缩性

我试图从大量事务数据中找出信息丰富的数据模式

通常情况下,我的数据是一组具有明确定义的列的记录(如发件人、收件人、金额、货币地址等-我有大约40-50个不同的列),数据量将是数百万(可能是1亿到1亿)条记录,我的目标是从这类记录中生成信息丰富的交易模式-谁购买的特定物品最多,交易量最大的收件人、费用模式、从同一发件人获得更多交易的人等

早些时候,我计划在关系数据库(Oracle/MySQL)中加载数据,并编写复杂的SQL来获取这些信息,但在我的概念验证过程中,通过查看卷,它似乎没有多大的可伸缩性

我试图通过Hadoop等获得更多关于分布式数据处理的信息。我刚刚开始阅读Hadoop,直到我初步了解Hadoop非常适合于非结构化数据处理,可能对关系数据处理没有多大用处


任何关于开放源代码技术的建议,我都可以快速尝试。

Hadoop可以用于结构化/非结构化数据处理。而且,它不像传统的RDBMS那样是一个维护关系和索引的数据库

有数百万行或有/没有可用于批量查询。Hadoop中的批处理查询已经存在了一段时间,并且已经成熟

用于交互式查询,也可以使用。请注意,演练开发刚刚开始,并处于孵化器阶段。而伊玛帕拉刚刚由Cloudera宣布。这里是实时引擎的有趣之处


注意,有很多其他的开源框架可能适合这些需求,但是这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点,必须选择合适的框架。

谢谢Praveen,让我看看您的链接,然后再回答更多问题。