Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用Nifi阅读多个来源,在卡夫卡中分组主题,并使用Spark订阅_Apache Spark_Apache Kafka_Apache Nifi - Fatal编程技术网

Apache spark 使用Nifi阅读多个来源,在卡夫卡中分组主题,并使用Spark订阅

Apache spark 使用Nifi阅读多个来源,在卡夫卡中分组主题,并使用Spark订阅,apache-spark,apache-kafka,apache-nifi,Apache Spark,Apache Kafka,Apache Nifi,我们使用ApacheNIFI在特定的时间间隔(例如30秒)内从Twitter和Reddit等多个来源获取数据。然后我们想把它发送给ApacheKafka,也许它应该以某种方式将Twitter和Reddit消息分为一个主题,这样Spark就可以在给定的时间间隔内始终从两个源接收数据 有办法吗 @Sebastian您描述的是基本的NiFI路由。您只需将Twitter和Redis路由到同一个下游卡夫卡制作人和同一个主题。从每个服务将数据输入NiFi后,应将其运行到UpdateAttribute,并将属

我们使用ApacheNIFI在特定的时间间隔(例如30秒)内从Twitter和Reddit等多个来源获取数据。然后我们想把它发送给ApacheKafka,也许它应该以某种方式将Twitter和Reddit消息分为一个主题,这样Spark就可以在给定的时间间隔内始终从两个源接收数据

有办法吗


@Sebastian您描述的是基本的NiFI路由。您只需将Twitter和Redis路由到同一个下游卡夫卡制作人和同一个主题。从每个服务将数据输入NiFi后,应将其运行到UpdateAttribute,并将属性topicName设置为每个源所需的值。如果每个数据源都有其他步骤,请在更新属性之后和发布Kafka之前执行这些步骤

如果按照上述方式对所有上游路由进行编码,则可以使用${topicName}动态地将所有不同的数据源路由到PublishKafka处理器