BigData/Hadoop项目的典型流程?
我最近开始学习像SQOOP、Hive、Pig这样的BigData技术,并发现有多种方法可以解决给定的问题,比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑 如果您在大多数情况下采用任何典型的Microsoft BI项目,流程将是 SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告BigData/Hadoop项目的典型流程?,hadoop,hive,apache-pig,bigdata,sqoop,Hadoop,Hive,Apache Pig,Bigdata,Sqoop,我最近开始学习像SQOOP、Hive、Pig这样的BigData技术,并发现有多种方法可以解决给定的问题,比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑 如果您在大多数情况下采用任何典型的Microsoft BI项目,流程将是 SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告 与此类似,BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。这实际上取决于您的要求和技能。在我看来,你可以用多种方式处理电子邮件日志 选择权 使用flume
与此类似,BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。这实际上取决于您的要求和技能。在我看来,你可以用多种方式处理电子邮件日志 选择权 使用flume-->将日志存储在flume sink-->中的HDFS中-->使用Pig或Hive分析日志,从源位置近实时地传输电子邮件日志。 使用Storm Spoots-->处理Storm bolts-->中的日志,并将其最终存储在nosql数据库中,以便进一步报告和分析。
还有很多其他方法可以做到这一点。根据适合您需求的可用技能集,您可以决定。您好,Srinivasan,谢谢您的宝贵意见。假设我不需要实时处理数据。我只需要通宵工作,我只知道猪、蜂巢和Sqoop。那么我可以遵循以下流程吗-Pig收集数据并进行处理,然后将其存储在蜂箱中。然后使用Sqoop将数据放入某些RDBMS中以进行报告是的,您可以很好地按照您的方法处理pig中的日志文件并创建中间输出。-->使用这些中间输出文件来配置单元外部表-->使用Sqoop导出到RDBMS。