Hadoop NiFi或流集从HBase读取、与平面文件中的内容连接并写入配置单元_Hadoop_Hive_Hbase_Apache Nifi_Streamsets

Hadoop NiFi或流集从HBase读取、与平面文件中的内容连接并写入配置单元

hadoop hive hbase apache-nifi

Hadoop NiFi或流集从HBase读取、与平面文件中的内容连接并写入配置单元,hadoop,hive,hbase,apache-nifi,streamsets,Hadoop,Hive,Hbase,Apache Nifi,Streamsets,他试图弄清楚是否可以使用ApacheNIFI或Streamset实现连接。这样我就可以定期从HBA读取、与其他表连接并将很少的字段写入配置单元表或者是否有任何其他工作流管理器工具支持此操作？我不熟悉StreamSet，但我会尝试帮助NiFi。你的平面文件是静态的吗？如果是这样，您是否希望直接替换值？您应该能够使用处理器来实现这一点。如果不是直接替换，则可以使用平面文件中的值预先填充，然后使用查找HBase记录如果所有其他方法都失败了，那么如果您熟悉Groovy、Javascript或Jyth

他试图弄清楚是否可以使用ApacheNIFI或Streamset实现连接。这样我就可以定期从HBA读取、与其他表连接并将很少的字段写入配置单元表

或者是否有任何其他工作流管理器工具支持此操作？

我不熟悉StreamSet，但我会尝试帮助NiFi。你的平面文件是静态的吗？如果是这样，您是否希望直接替换值？您应该能够使用处理器来实现这一点。如果不是直接替换，则可以使用平面文件中的值预先填充，然后使用查找HBase记录

如果所有其他方法都失败了，那么如果您熟悉Groovy、Javascript或Jython等脚本语言，那么您可以使用或编写“连接”部分

在支持CSV文件、属性文件和内存中查找的查找/充实处理器上有一个（取得了一些良好的进展）。

我不熟悉流集，但我将尝试帮助NiFi。你的平面文件是静态的吗？如果是这样，您是否希望直接替换值？您应该能够使用处理器来实现这一点。如果不是直接替换，则可以使用平面文件中的值预先填充，然后使用查找HBase记录

如果所有其他方法都失败了，那么如果您熟悉Groovy、Javascript或Jython等脚本语言，那么您可以使用或编写“连接”部分

在支持CSV文件、属性文件和内存中查找的查找/充实处理器上有一个（取得了一些良好的进展）。

谢谢，FetchDistributedMapCache似乎就是我要找的。它也可以定期这样做。例如，我有一个不断填充新行的表，我希望每小时为前一小时的数据聚合一次（与其他静态表上的联接）。那么，NiFi是否还记得哪些小时已经累计，哪些需要为休息时间选择？聚合将在少数列上具有SUM/AVG。它不会进行聚合，缓存仅用于查找。在即将发布的NiFi 1.2.0版本中，您可以使用UpdateAttribute在文件流经hanks时保持运行计数/总和，FetchDistributedMapCache似乎就是我要寻找的。它也可以定期这样做。例如，我有一个不断填充新行的表，我希望每小时为前一小时的数据聚合一次（与其他静态表上的联接）。那么，NiFi是否还记得哪些小时已经累计，哪些需要为休息时间选择？聚合将在少数列上具有SUM/AVG。它不会进行聚合，缓存仅用于查找。在即将发布的NiFi 1.2.0版本中，您可以使用UpdateAttribute在文件流动时保持运行计数/总和