Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
BigData/Hadoop项目的典型流程?_Hadoop_Hive_Apache Pig_Bigdata_Sqoop - Fatal编程技术网

BigData/Hadoop项目的典型流程?

BigData/Hadoop项目的典型流程?,hadoop,hive,apache-pig,bigdata,sqoop,Hadoop,Hive,Apache Pig,Bigdata,Sqoop,我最近开始学习像SQOOP、Hive、Pig这样的BigData技术,并发现有多种方法可以解决给定的问题,比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑 如果您在大多数情况下采用任何典型的Microsoft BI项目,流程将是 SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告 与此类似,BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。这实际上取决于您的要求和技能。在我看来,你可以用多种方式处理电子邮件日志 选择权 使用flume

我最近开始学习像SQOOP、Hive、Pig这样的BigData技术,并发现有多种方法可以解决给定的问题,比如SQOOP、HiveQL等。我对技术/工具的选择有点困惑

如果您在大多数情况下采用任何典型的Microsoft BI项目,流程将是

SSIS处理原始数据->SSAS创建OLAP DB->SSRS生成报告


与此类似,BigData/Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。

这实际上取决于您的要求和技能。在我看来,你可以用多种方式处理电子邮件日志

选择权

使用flume-->将日志存储在flume sink-->中的HDFS中-->使用Pig或Hive分析日志,从源位置近实时地传输电子邮件日志。 使用Storm Spoots-->处理Storm bolts-->中的日志,并将其最终存储在nosql数据库中,以便进一步报告和分析。
还有很多其他方法可以做到这一点。根据适合您需求的可用技能集,您可以决定。

您好,Srinivasan,谢谢您的宝贵意见。假设我不需要实时处理数据。我只需要通宵工作,我只知道猪、蜂巢和Sqoop。那么我可以遵循以下流程吗-Pig收集数据并进行处理,然后将其存储在蜂箱中。然后使用Sqoop将数据放入某些RDBMS中以进行报告是的,您可以很好地按照您的方法处理pig中的日志文件并创建中间输出。-->使用这些中间输出文件来配置单元外部表-->使用Sqoop导出到RDBMS。