Apache nifi 隔离处理器

Apache nifi 隔离处理器,apache-nifi,Apache Nifi,集群场景中的流文件如何在集群节点之间实现负载平衡/分布?例如,如果我有一个指定为隔离的GetFile处理器,那么来自该处理器的流文件如何分布在集群节点上?是否需要添加任何额外的工作/处理器?在今天的ApacheNIFI中,跨集群的负载平衡问题有两个主要答案。首先,必须首先考虑数据如何到达集群。其次,一旦它进入集群,您就需要重新平衡 为了将数据引入集群,选择本身具有可伸缩性的协议非常重要。提供排队语义的协议有利于实现这一点,而不提供排队语义的协议则存在问题。作为具有排队语义的示例,可以考虑JMS队

集群场景中的流文件如何在集群节点之间实现负载平衡/分布?例如,如果我有一个指定为隔离的GetFile处理器,那么来自该处理器的流文件如何分布在集群节点上?是否需要添加任何额外的工作/处理器?

在今天的ApacheNIFI中,跨集群的负载平衡问题有两个主要答案。首先,必须首先考虑数据如何到达集群。其次,一旦它进入集群,您就需要重新平衡

为了将数据引入集群,选择本身具有可伸缩性的协议非常重要。提供排队语义的协议有利于实现这一点,而不提供排队语义的协议则存在问题。作为具有排队语义的示例,可以考虑JMS队列、Kafka或一些HTTP API。这些都很好,因为一个或多个客户端可以以队列的方式从它们中提取,从而分散负载。不提供这种行为的协议的一个例子是bet GetFile或GetSFTP等等。这些都是有问题的,因为客户机必须共享他们看到要提取哪些数据的状态。为了解决这些协议,我们已经移动到“liststp”和“FetchSFTP”模型,其中liststp出现在集群中的一个节点(主节点)上,然后它使用NiFi的站点到站点特性来实现集群其余部分的负载平衡,然后每个节点都获得其工作份额,并执行FetchSFTP以实际提取数据。HDFS现在也提供了相同的模式

在描述这种模式时,我还提到了站点到站点。这就是两个nifi集群如何共享数据的方式,这对于站点间和Instra站点分发需求非常重要。它也适用于在同一集群内分散负载。为此,您只需将数据发送到同一集群,然后NiFi负责负载平衡、故障转移以及检测新节点和删除的节点

所以已经有很多选择了。也就是说,我们可以做得更多,未来我们计划为您提供一种方式,让您在连接上指示它应该是自动负载平衡的,然后它将在幕后执行我所描述的操作

谢谢
Joe

在今天的ApacheNIFI中,跨集群的负载平衡问题有两个主要答案。首先,必须首先考虑数据如何到达集群。其次,一旦它进入集群,您就需要重新平衡

为了将数据引入集群,选择本身具有可伸缩性的协议非常重要。提供排队语义的协议有利于实现这一点,而不提供排队语义的协议则存在问题。作为具有排队语义的示例,可以考虑JMS队列、Kafka或一些HTTP API。这些都很好,因为一个或多个客户端可以以队列的方式从它们中提取,从而分散负载。不提供这种行为的协议的一个例子是bet GetFile或GetSFTP等等。这些都是有问题的,因为客户机必须共享他们看到要提取哪些数据的状态。为了解决这些协议,我们已经移动到“liststp”和“FetchSFTP”模型,其中liststp出现在集群中的一个节点(主节点)上,然后它使用NiFi的站点到站点特性来实现集群其余部分的负载平衡,然后每个节点都获得其工作份额,并执行FetchSFTP以实际提取数据。HDFS现在也提供了相同的模式

在描述这种模式时,我还提到了站点到站点。这就是两个nifi集群如何共享数据的方式,这对于站点间和Instra站点分发需求非常重要。它也适用于在同一集群内分散负载。为此,您只需将数据发送到同一集群,然后NiFi负责负载平衡、故障转移以及检测新节点和删除的节点

所以已经有很多选择了。也就是说,我们可以做得更多,未来我们计划为您提供一种方式,让您在连接上指示它应该是自动负载平衡的,然后它将在幕后执行我所描述的操作

谢谢
Joe

这里有一个更新的答案,在新版本的NiFi中更简单。我在这里运行ApacheNIFI 1.8.0

我在这里找到的方法是在主节点上使用一个处理器,它将通过负载平衡连接发出要使用的流文件

例如,使用
列表*
处理器之一,在“调度”中设置其“执行”在主节点上运行

这应该输入下一个处理器。选择连接并设置其“负载平衡策略”


您可以在its中阅读有关该功能的更多信息。

这里有一个更新的答案,在NiFi的较新版本中,该答案更为简单。我在这里运行ApacheNIFI 1.8.0

我在这里找到的方法是在主节点上使用一个处理器,它将通过负载平衡连接发出要使用的流文件

例如,使用
列表*
处理器之一,在“调度”中设置其“执行”在主节点上运行

这应该输入下一个处理器。选择连接并设置其“负载平衡策略”


您可以在its中阅读更多关于该功能的信息。

乔,这是一个很好的信息。我们终于找到了站点到站点的方法。再次感谢您的反馈。非常好的信息,乔。我们终于找到了站点到站点的方法。再次感谢您的反馈。