通过MongoDB使用Storm bolt或Spark streaming丰富数据

通过MongoDB使用Storm bolt或Spark streaming丰富数据,mongodb,apache-kafka,spark-streaming,apache-storm,Mongodb,Apache Kafka,Spark Streaming,Apache Storm,我想创建一个Storm Spoot,从Apache Kafka的主题中读取数据,并将此数据发送到连接到MongoDB的Storm bolt,然后查询我从Kafka收集的消息以丰富数据。例如:我有一个personID(我通过卡夫卡的一条消息获得),我想使用这个personID在MongoDB中查询person地址。在我的MongoDB收藏中,每个文档都有personID和地址 谁能给我举个例子吗?使用Spark streaming的示例也非常好。我将这样处理: 将所有数据流式传输到Kafka,包括

我想创建一个Storm Spoot,从Apache Kafka的主题中读取数据,并将此数据发送到连接到MongoDB的Storm bolt,然后查询我从Kafka收集的消息以丰富数据。例如:我有一个personID(我通过卡夫卡的一条消息获得),我想使用这个personID在MongoDB中查询person地址。在我的MongoDB收藏中,每个文档都有personID和地址


谁能给我举个例子吗?使用Spark streaming的示例也非常好。

我将这样处理:

  • 将所有数据流式传输到Kafka,包括MongoDB扩展源(地址等)。您可以使用Kafka Connect(Apache Kafka的一部分)来完成此操作。请查看本文:
  • 使用或执行数据充实。Kafka Streams是ApacheKafka的一部分,是一个JavaAPI。KSQL运行在Kafka流之上,并为您提供了一个SQL接口来声明流转换。您可以看到一个示例,包括连接

  • 或者,如果要将生成的丰富数据存储在其他位置,请使用Kafka Connect将其从Kafka主题流式传输到目标


  • 你打算使用Storm或Spark流媒体吗?你可以在卡夫卡独自完成这一切。如果您感兴趣,我可以在回答中发布详细信息。我开始使用spark,但任何解决方案都会很好。