Apache spark 使用Nifi阅读多个来源,在卡夫卡中分组主题,并使用Spark订阅
我们使用ApacheNIFI在特定的时间间隔(例如30秒)内从Twitter和Reddit等多个来源获取数据。然后我们想把它发送给ApacheKafka,也许它应该以某种方式将Twitter和Reddit消息分为一个主题,这样Spark就可以在给定的时间间隔内始终从两个源接收数据 有办法吗Apache spark 使用Nifi阅读多个来源,在卡夫卡中分组主题,并使用Spark订阅,apache-spark,apache-kafka,apache-nifi,Apache Spark,Apache Kafka,Apache Nifi,我们使用ApacheNIFI在特定的时间间隔(例如30秒)内从Twitter和Reddit等多个来源获取数据。然后我们想把它发送给ApacheKafka,也许它应该以某种方式将Twitter和Reddit消息分为一个主题,这样Spark就可以在给定的时间间隔内始终从两个源接收数据 有办法吗 @Sebastian您描述的是基本的NiFI路由。您只需将Twitter和Redis路由到同一个下游卡夫卡制作人和同一个主题。从每个服务将数据输入NiFi后,应将其运行到UpdateAttribute,并将属
@Sebastian您描述的是基本的NiFI路由。您只需将Twitter和Redis路由到同一个下游卡夫卡制作人和同一个主题。从每个服务将数据输入NiFi后,应将其运行到UpdateAttribute,并将属性topicName设置为每个源所需的值。如果每个数据源都有其他步骤,请在更新属性之后和发布Kafka之前执行这些步骤 如果按照上述方式对所有上游路由进行编码,则可以使用${topicName}动态地将所有不同的数据源路由到PublishKafka处理器