Hadoop摄取自动化技术
我的背景是 晚上有10个csv文件上传到我的服务器 我的过程是:Hadoop摄取自动化技术,hadoop,apache-nifi,data-ingestion,Hadoop,Apache Nifi,Data Ingestion,我的背景是 晚上有10个csv文件上传到我的服务器 我的过程是: 摄入: 将文件放在HDFS上 创建ORC配置单元表并在其上放置数据 处理: 火花加工:变换、清洁、连接 大量链接步骤(Spark作业) 我正在寻找最佳实践,以自动化第一部分并触发第二部分 Cron,sh,dfs put 奥齐 阿帕奇·尼菲 水槽 特伦德:( 我也看到了,它很完美,但我认为它投入生产还很年轻 提前感谢。Oozie和Nifi都将与水槽、蜂巢和火花行动相结合 因此,您的(Oozie或Nifi)工作流应该是
- 摄入:
- 将文件放在HDFS上
- 创建ORC配置单元表并在其上放置数据李>
- 处理:
- 火花加工:变换、清洁、连接李>
- 大量链接步骤(Spark作业)
- Cron,sh,dfs put李>
- 奥齐李>
- 阿帕奇·尼菲李>
- 水槽李>
- 特伦德:(
提前感谢。Oozie和Nifi都将与水槽、蜂巢和火花行动相结合 因此,您的(Oozie或Nifi)工作流应该是这样工作的
确保通过适当的日志记录和通知处理工作流中的错误,以便在生产过程中对工作流进行合理化。Oozie和Nifi都将与flume、hive和spark操作结合使用 因此,您的(Oozie或Nifi)工作流应该是这样工作的
确保您通过正确的日志记录和通知处理工作流中的错误,以便在生产中操作工作流。此答案是否有用?您是否有后续问题?Helpfull,感谢您的回答。此答案有用吗?您有后续问题吗?Helpfull,感谢您的回答。