Azure Nifi GetEventHub将数据乘以节点数

Azure Nifi GetEventHub将数据乘以节点数,azure,hortonworks-data-platform,apache-nifi,azure-eventhub,Azure,Hortonworks Data Platform,Apache Nifi,Azure Eventhub,我有一些从azure eventhub获取数据的流,我使用GetAzureEventhub处理器。我得到的数据乘以集群中的节点数,我有4个节点。如果我指示处理器只在主节点上运行,则数据不会复制4次 我发现每个消费群体的eventhub最多可以接受5个读卡器,我在中读到了这一点,每个读卡器都有自己的偏移量,并且它们使用相同的数据。因此,在结论中,我阅读相同的数据4次 我有两个问题: 如何协调这4个节点以通过同一个读卡器? 在这种情况下,如何将nifi指示给一个要读取的节点 谢谢,如果您需要任何澄清

我有一些从azure eventhub获取数据的流,我使用GetAzureEventhub处理器。我得到的数据乘以集群中的节点数,我有4个节点。如果我指示处理器只在主节点上运行,则数据不会复制4次

我发现每个消费群体的eventhub最多可以接受5个读卡器,我在中读到了这一点,每个读卡器都有自己的偏移量,并且它们使用相同的数据。因此,在结论中,我阅读相同的数据4次

我有两个问题: 如何协调这4个节点以通过同一个读卡器? 在这种情况下,如何将nifi指示给一个要读取的节点


谢谢,如果您需要任何澄清,请询问。

GetAzureEventHub目前不在节点之间执行任何协调,因此您只能在主节点上运行它以避免重复

处理器将需要重构,以在集群的节点之间执行协调,并为每个节点分配唯一的分区,并处理故障(即,如果使用分区1的节点出现故障,则另一个节点必须接管分区1)


如果Azure客户端以某种方式提供了这种协调(类似于Kafka客户端),那么它在NiFi端所需的工作就会更少,但我对Azure不够熟悉,不知道它是否提供类似的功能。

GetAzureEventHub目前不在节点之间执行任何协调,因此您只能在主节点上运行它以避免重复

处理器将需要重构,以在集群的节点之间执行协调,并为每个节点分配唯一的分区,并处理故障(即,如果使用分区1的节点出现故障,则另一个节点必须接管分区1)


如果Azure客户端以某种方式提供了这种协调(类似于Kafka客户端),那么在NiFi方面需要的工作就会更少,但我对Azure还不太熟悉,不知道它是否提供了类似的功能。

非常感谢Bryan!如果我能自己做,我会试试的。非常感谢布莱恩!如果我能自己做的话,我会试试的。