Hadoop 使用OOZIE在文件到达NFS时触发执行的最佳方法

Hadoop 使用OOZIE在文件到达NFS时触发执行的最佳方法,hadoop,hdfs,oozie,nfs,Hadoop,Hdfs,Oozie,Nfs,以下和: 不同类型的文件不时进入我的NFS目录。我希望使用OOZIE或任何其他HDFS解决方案触发文件到达事件,并根据文件类型将文件复制到HDFS的特定位置。最好的方法是什么?最好的方法是非常主观的术语。这在很大程度上取决于,什么样的数据,频率和什么样的事情应该发生,一旦数据到达特定的位置 ApacheFlume可以监视特定文件夹的数据可用性,并按原样将其下推到任何接收器,如HDFS。Flume很适合流式传输数据,但它只做一项特定的工作——将数据从一个地方移动到另一个地方 但另一方面,请查看Oo

以下和:
不同类型的文件不时进入我的NFS目录。我希望使用OOZIE或任何其他HDFS解决方案触发文件到达事件,并根据文件类型将文件复制到HDFS的特定位置。最好的方法是什么?

最好的方法是非常主观的术语。这在很大程度上取决于,什么样的数据,频率和什么样的事情应该发生,一旦数据到达特定的位置

ApacheFlume可以监视特定文件夹的数据可用性,并按原样将其下推到任何接收器,如HDFS。Flume很适合流式传输数据,但它只做一项特定的工作——将数据从一个地方移动到另一个地方


但另一方面,请查看Oozie协调员。协调员有数据可用性触发器,使用oozie,您可以在数据到达后使用spark、hive、pig等工具执行所有类型的ETL操作,并使用shell操作将其下推到hdfs。您可以安排作业在特定的时间、频率运行,或者在出现问题时让作业向您发送电子邮件……

Apache Flume………..?非常感谢@Pushkr!你能告诉我在哪里可以找到触发文件到达并将文件复制到HDFS特定位置的Oozie协调员代码的源代码吗?谷歌是你的朋友。但这里有一个例子——亲爱的@Pushkr,Oozie协调员是否也支持文件到达NFS而不仅仅是HDFS?请参考这个:好问题。我真的不确定,因为oozie文档只指定它可以接受的数据集URI是hdfs或hcatlog。再次在“谢谢”下查找“数据集URI模板类型”,这是我最初提问的目标。如果OOZIE不支持NFS,还有其他选择吗?