Hadoop摄取自动化技术

Hadoop摄取自动化技术,hadoop,apache-nifi,data-ingestion,Hadoop,Apache Nifi,Data Ingestion,我的背景是 晚上有10个csv文件上传到我的服务器 我的过程是: 摄入: 将文件放在HDFS上 创建ORC配置单元表并在其上放置数据 处理: 火花加工:变换、清洁、连接 大量链接步骤(Spark作业) 我正在寻找最佳实践,以自动化第一部分并触发第二部分 Cron,sh,dfs put 奥齐 阿帕奇·尼菲 水槽 特伦德:( 我也看到了,它很完美,但我认为它投入生产还很年轻 提前感谢。Oozie和Nifi都将与水槽、蜂巢和火花行动相结合 因此,您的(Oozie或Nifi)工作流应该是

我的背景是

晚上有10个csv文件上传到我的服务器

我的过程是:

  • 摄入:

    • 将文件放在HDFS上
    • 创建ORC配置单元表并在其上放置数据
  • 处理:

    • 火花加工:变换、清洁、连接
    • 大量链接步骤(Spark作业)
我正在寻找最佳实践,以自动化第一部分并触发第二部分

  • Cron,sh,dfs put
  • 奥齐
  • 阿帕奇·尼菲
  • 水槽
  • 特伦德:(
我也看到了,它很完美,但我认为它投入生产还很年轻


提前感谢。

Oozie和Nifi都将与水槽、蜂巢和火花行动相结合

因此,您的(Oozie或Nifi)工作流应该是这样工作的

  • cron作业(或时间表)启动工作流

  • 工作流程的第一步是Flume进程,将数据加载到所需的HDFS目录中。您可以不用Flume,只需使用HDFS命令即可完成此操作,但这将有助于维护您的解决方案在未来的可扩展性

  • 用于创建/更新表的配置单元操作

  • Spark操作以执行自定义Spark程序


  • 确保通过适当的日志记录和通知处理工作流中的错误,以便在生产过程中对工作流进行合理化。

    Oozie和Nifi都将与flume、hive和spark操作结合使用

    因此,您的(Oozie或Nifi)工作流应该是这样工作的

  • cron作业(或时间表)启动工作流

  • 工作流程的第一步是Flume进程,将数据加载到所需的HDFS目录中。您可以不用Flume,只需使用HDFS命令即可完成此操作,但这将有助于维护您的解决方案在未来的可扩展性

  • 用于创建/更新表的配置单元操作

  • Spark操作以执行自定义Spark程序


  • 确保您通过正确的日志记录和通知处理工作流中的错误,以便在生产中操作工作流。

    此答案是否有用?您是否有后续问题?Helpfull,感谢您的回答。此答案有用吗?您有后续问题吗?Helpfull,感谢您的回答。