Hive 加载每n分钟接收一次的文件

Hive 加载每n分钟接收一次的文件,hive,apache-pig,Hive,Apache Pig,我想使用Pig/Hive处理在过去5分钟内在HDFS目录中接收到的文件。例如,我有一个不同的团队,他们在HDFS目录下每5分钟发送一次XML文件。我是否需要尝试find/path-cmin-5来加载文件?需要指导。您试图对收到的文件运行哪种类型的流程?加载文件是什么意思?这些文件已经加载到HDFS中,您是否正在尝试加载到HBASE或任何其他NOSql DB中?请解释…我想每5分钟使用Pig/Hive处理HDFS中收到的所有新文件。如何在Pig/Hive中对其进行参数化。另外,您能建议我如何在HD

我想使用Pig/Hive处理在过去5分钟内在HDFS目录中接收到的文件。例如,我有一个不同的团队,他们在HDFS目录下每5分钟发送一次XML文件。我是否需要尝试find/path-cmin-5来加载文件?需要指导。

您试图对收到的文件运行哪种类型的流程?加载文件是什么意思?这些文件已经加载到HDFS中,您是否正在尝试加载到HBASE或任何其他NOSql DB中?请解释…我想每5分钟使用Pig/Hive处理HDFS中收到的所有新文件。如何在Pig/Hive中对其进行参数化。另外,您能建议我如何在HDFS中接收XML数据时每5分钟将其加载到Hbase中吗?