Hadoop HDFS中数据可用性的事件通知?

Hadoop HDFS中数据可用性的事件通知?,hadoop,mapreduce,hdfs,Hadoop,Mapreduce,Hdfs,实现Hadoop数据可用性通知系统的最佳方法是什么,这样每当新数据出现时,它就会创建一个通知,作业控制框架可以利用该通知来启动依赖于该数据的作业。这里主要关注的是,一旦数据可用,就应该触发作业,而不是在NameNode上进行作业轮询以获取数据可用性?我要做的是使用生产者/消费者模型,该模型可以使用队列(例如Amazon SQS)相互交互 生产者将维护一个监视目录列表,并每隔x秒执行一次hadoop fs-test-e/path/to/wasted/dir(其中x应该是一个参数),如果命令返回0并

实现Hadoop数据可用性通知系统的最佳方法是什么,这样每当新数据出现时,它就会创建一个通知,作业控制框架可以利用该通知来启动依赖于该数据的作业。这里主要关注的是,一旦数据可用,就应该触发作业,而不是在NameNode上进行作业轮询以获取数据可用性?

我要做的是使用生产者/消费者模型,该模型可以使用队列(例如Amazon SQS)相互交互

生产者将维护一个监视目录列表,并每隔x秒执行一次hadoop fs-test-e/path/to/wasted/dir(其中x应该是一个参数),如果命令返回0并带有
$?
,则可以向队列发送消息。消息的内容可能只是刚刚出现的目录的名称,或者您可以添加一些元数据并将其作为JSON对象发送(例如带有附加字段)


另一方面,消费者将每y秒收听一次队列(其中y应为参数),一旦有新的数据,你就可以在这个目录上开始你的工作。

thnx谢谢你的建议,但我看到的是不是可以用事件驱动的方式,而不是每一秒钟轮询一次,一旦创建了新数据,它的元将在NameNode中更新,NameNode就会触发一个事件和作业控制框架,比如Oozie将获得有关数据可用性的通知并启动其工作流。据我所知,HDFS中没有这方面的功能,但您也可以不断查看日志,查看何时正在编写新文件,并围绕这一点构建一些内容。我正是在寻找为其构建一些内容的可能性。谢谢你的建议。这是同样的文档。@bril你找到解决方法了吗?就连我也在为同样的问题寻找解决方案。