Hive 自动化清管器、蜂箱、Sqoop的流程

Hive 自动化清管器、蜂箱、Sqoop的流程,hive,mapreduce,apache-pig,sqoop,azure-hdinsight,Hive,Mapreduce,Apache Pig,Sqoop,Azure Hdinsight,我有csv格式的HDFS(AzureHDInsight)数据。我正在使用Pig来处理该数据。在Pig中处理后,汇总数据将存储在蜂箱中。然后使用Sqoop将Hive表导出到RDBMS中。现在,我需要自动化所有这一过程。这是否可能,我将在MapReduce中为所有这3个任务编写特定的方法,然后运行此MapReduce作业,并逐一执行所有这些任务。 ​对于创建MapReduce作业,我想使用。NetSDK。因此,我的问题是这是可能的,如果是,则建议一些步骤并参考链接。 ​谢谢。如果您需要定期运行这些任

我有csv格式的HDFS(AzureHDInsight)数据。我正在使用Pig处理该数据。在Pig中处理后,汇总数据将存储在蜂箱中。然后使用SqoopHive表导出到RDBMS中。现在,我需要自动化所有这一过程。这是否可能,我将在MapReduce中为所有这3个任务编写特定的方法,然后运行此MapReduce作业,并逐一执行所有这些任务。 ​对于创建MapReduce作业,我想使用。NetSDK。因此,我的问题是这是可能的,如果,则建议一些步骤并参考链接
​谢谢。

如果您需要定期运行这些任务,我建议您使用。检查现有的,它有相当好的文档

如果你的云上没有这个框架,你可以编写你自己的MR,但我有Oozie,你可以编写DAG流,其中图形上的每个动作可以是pig/bash/hive/hdfs等等


它可以每X天/小时/分钟运行一次,并在出现故障时向您发送电子邮件

不知道.Net SDK,但您可以通过运行pig/hive&ect的操作使用Oozie工作流完成所有这些操作-如果您需要更多详细信息,请告诉我谢谢回复。这对我真的很有帮助。​我错误地编写了MapReduce作业,我应该使用HiveJob、PigJob、SqoopJob。​再次感谢。