Hadoop摄取自动化技术_Hadoop_Apache Nifi_Data Ingestion

Hadoop摄取自动化技术

hadoop apache-nifi

Hadoop摄取自动化技术,hadoop,apache-nifi,data-ingestion,Hadoop,Apache Nifi,Data Ingestion,我的背景是晚上有10个csv文件上传到我的服务器我的过程是：摄入：将文件放在HDFS上创建ORC配置单元表并在其上放置数据处理：火花加工：变换、清洁、连接大量链接步骤（Spark作业）我正在寻找最佳实践，以自动化第一部分并触发第二部分 Cron，sh，dfs put 奥齐阿帕奇·尼菲水槽特伦德：( 我也看到了，它很完美，但我认为它投入生产还很年轻提前感谢。Oozie和Nifi都将与水槽、蜂巢和火花行动相结合因此，您的（Oozie或Nifi）工作流应该是

我的背景是

晚上有10个csv文件上传到我的服务器

我的过程是：

摄入：
- 将文件放在HDFS上
- 创建ORC配置单元表并在其上放置数据
处理：
- 火花加工：变换、清洁、连接
- 大量链接步骤（Spark作业）

我正在寻找最佳实践，以自动化第一部分并触发第二部分

Cron，sh，dfs put
奥齐
阿帕奇·尼菲
水槽
特伦德：(

我也看到了，它很完美，但我认为它投入生产还很年轻

提前感谢。

Oozie和Nifi都将与水槽、蜂巢和火花行动相结合

因此，您的（Oozie或Nifi）工作流应该是这样工作的

cron作业（或时间表）启动工作流

工作流程的第一步是Flume进程，将数据加载到所需的HDFS目录中。您可以不用Flume，只需使用HDFS命令即可完成此操作，但这将有助于维护您的解决方案在未来的可扩展性

用于创建/更新表的配置单元操作

Spark操作以执行自定义Spark程序

确保通过适当的日志记录和通知处理工作流中的错误，以便在生产过程中对工作流进行合理化。

Oozie和Nifi都将与flume、hive和spark操作结合使用

因此，您的（Oozie或Nifi）工作流应该是这样工作的

cron作业（或时间表）启动工作流

用于创建/更新表的配置单元操作

Spark操作以执行自定义Spark程序

确保您通过正确的日志记录和通知处理工作流中的错误，以便在生产中操作工作流。

此答案是否有用？您是否有后续问题？Helpfull，感谢您的回答。此答案有用吗？您有后续问题吗？Helpfull，感谢您的回答。