BigData/Hadoop项目的典型流程？_Hadoop_Hive_Apache Pig_Bigdata_Sqoop

BigData/Hadoop项目的典型流程？

hadoop hive apache-pig

BigData/Hadoop项目的典型流程？,hadoop,hive,apache-pig,bigdata,sqoop,Hadoop,Hive,Apache Pig,Bigdata,Sqoop,我最近开始学习像SQOOP、Hive、Pig这样的BigData技术，并发现有多种方法可以解决给定的问题，比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑如果您在大多数情况下采用任何典型的Microsoft BI项目，流程将是 SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告与此类似，BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。这实际上取决于您的要求和技能。在我看来，你可以用多种方式处理电子邮件日志选择权使用flume

我最近开始学习像SQOOP、Hive、Pig这样的BigData技术，并发现有多种方法可以解决给定的问题，比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑

如果您在大多数情况下采用任何典型的Microsoft BI项目，流程将是

SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告

与此类似，BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。

这实际上取决于您的要求和技能。在我看来，你可以用多种方式处理电子邮件日志

选择权

使用flume-->将日志存储在flume sink-->中的HDFS中-->使用Pig或Hive分析日志，从源位置近实时地传输电子邮件日志。使用Storm Spoots-->处理Storm bolts-->中的日志，并将其最终存储在nosql数据库中，以便进一步报告和分析。

还有很多其他方法可以做到这一点。根据适合您需求的可用技能集，您可以决定。

您好，Srinivasan，谢谢您的宝贵意见。假设我不需要实时处理数据。我只需要通宵工作，我只知道猪、蜂巢和Sqoop。那么我可以遵循以下流程吗-Pig收集数据并进行处理，然后将其存储在蜂箱中。然后使用Sqoop将数据放入某些RDBMS中以进行报告是的，您可以很好地按照您的方法处理pig中的日志文件并创建中间输出。-->使用这些中间输出文件来配置单元外部表-->使用Sqoop导出到RDBMS。