Hadoop NiFi或流集从HBase读取、与平面文件中的内容连接并写入配置单元

Hadoop NiFi或流集从HBase读取、与平面文件中的内容连接并写入配置单元,hadoop,hive,hbase,apache-nifi,streamsets,Hadoop,Hive,Hbase,Apache Nifi,Streamsets,他试图弄清楚是否可以使用ApacheNIFI或Streamset实现连接。这样我就可以定期从HBA读取、与其他表连接并将很少的字段写入配置单元表 或者是否有任何其他工作流管理器工具支持此操作?我不熟悉StreamSet,但我会尝试帮助NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够使用处理器来实现这一点。如果不是直接替换,则可以使用平面文件中的值预先填充,然后使用查找HBase记录 如果所有其他方法都失败了,那么如果您熟悉Groovy、Javascript或Jyth

他试图弄清楚是否可以使用ApacheNIFI或Streamset实现连接。这样我就可以定期从HBA读取、与其他表连接并将很少的字段写入配置单元表


或者是否有任何其他工作流管理器工具支持此操作?

我不熟悉StreamSet,但我会尝试帮助NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够使用处理器来实现这一点。如果不是直接替换,则可以使用平面文件中的值预先填充,然后使用查找HBase记录

如果所有其他方法都失败了,那么如果您熟悉Groovy、Javascript或Jython等脚本语言,那么您可以使用或编写“连接”部分


在支持CSV文件、属性文件和内存中查找的查找/充实处理器上有一个(取得了一些良好的进展)。

我不熟悉流集,但我将尝试帮助NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够使用处理器来实现这一点。如果不是直接替换,则可以使用平面文件中的值预先填充,然后使用查找HBase记录

如果所有其他方法都失败了,那么如果您熟悉Groovy、Javascript或Jython等脚本语言,那么您可以使用或编写“连接”部分


在支持CSV文件、属性文件和内存中查找的查找/充实处理器上有一个(取得了一些良好的进展)。

谢谢,FetchDistributedMapCache似乎就是我要找的。它也可以定期这样做。例如,我有一个不断填充新行的表,我希望每小时为前一小时的数据聚合一次(与其他静态表上的联接)。那么,NiFi是否还记得哪些小时已经累计,哪些需要为休息时间选择?聚合将在少数列上具有SUM/AVG。它不会进行聚合,缓存仅用于查找。在即将发布的NiFi 1.2.0版本中,您可以使用UpdateAttribute在文件流经hanks时保持运行计数/总和,FetchDistributedMapCache似乎就是我要寻找的。它也可以定期这样做。例如,我有一个不断填充新行的表,我希望每小时为前一小时的数据聚合一次(与其他静态表上的联接)。那么,NiFi是否还记得哪些小时已经累计,哪些需要为休息时间选择?聚合将在少数列上具有SUM/AVG。它不会进行聚合,缓存仅用于查找。在即将发布的NiFi 1.2.0版本中,您可以使用UpdateAttribute在文件流动时保持运行计数/总和