Hadoop 大容量事务数据信息模式生成_Hadoop_Distributed Computing_Large Data Volumes

Hadoop 大容量事务数据信息模式生成

hadoop

Hadoop 大容量事务数据信息模式生成,hadoop,distributed-computing,large-data-volumes,Hadoop,Distributed Computing,Large Data Volumes,我试图从大量事务数据中找出信息丰富的数据模式通常情况下，我的数据是一组具有明确定义的列的记录（如发件人、收件人、金额、货币地址等-我有大约40-50个不同的列），数据量将是数百万（可能是1亿到1亿）条记录，我的目标是从这类记录中生成信息丰富的交易模式-谁购买的特定物品最多，交易量最大的收件人、费用模式、从同一发件人获得更多交易的人等早些时候，我计划在关系数据库（Oracle/MySQL）中加载数据，并编写复杂的SQL来获取这些信息，但在我的概念验证过程中，通过查看卷，它似乎没有多大的可伸缩性

我试图从大量事务数据中找出信息丰富的数据模式

通常情况下，我的数据是一组具有明确定义的列的记录（如发件人、收件人、金额、货币地址等-我有大约40-50个不同的列），数据量将是数百万（可能是1亿到1亿）条记录，我的目标是从这类记录中生成信息丰富的交易模式-谁购买的特定物品最多，交易量最大的收件人、费用模式、从同一发件人获得更多交易的人等

早些时候，我计划在关系数据库（Oracle/MySQL）中加载数据，并编写复杂的SQL来获取这些信息，但在我的概念验证过程中，通过查看卷，它似乎没有多大的可伸缩性

我试图通过Hadoop等获得更多关于分布式数据处理的信息。我刚刚开始阅读Hadoop，直到我初步了解Hadoop非常适合于非结构化数据处理，可能对关系数据处理没有多大用处

任何关于开放源代码技术的建议，我都可以快速尝试。

Hadoop可以用于结构化/非结构化数据处理。而且，它不像传统的RDBMS那样是一个维护关系和索引的数据库

有数百万行或有/没有可用于批量查询。Hadoop中的批处理查询已经存在了一段时间，并且已经成熟

用于交互式查询，也可以使用。请注意，演练开发刚刚开始，并处于孵化器阶段。而伊玛帕拉刚刚由Cloudera宣布。这里是实时引擎的有趣之处

注意，有很多其他的开源框架可能适合这些需求，但是这里只提到其中的几个。根据详细的需求分析和不同框架的优缺点，必须选择合适的框架。

谢谢Praveen，让我看看您的链接，然后再回答更多问题。