Apache kafka 卡夫卡消费者Vs阿帕奇·弗林克

Apache kafka 卡夫卡消费者Vs阿帕奇·弗林克,apache-kafka,spark-streaming,avro,kafka-consumer-api,apache-flink,Apache Kafka,Spark Streaming,Avro,Kafka Consumer Api,Apache Flink,我做了一个poc,其中我使用spark流从卡夫卡读取数据。但我们的组织要么使用ApacheFlink,要么使用Kafka消费者从ApacheKafka读取数据,作为标准流程。所以我需要用Kafka消费者或ApacheFlink替换Kafka流媒体。在我的应用程序用例中,我需要从kafka读取数据,过滤json数据并将字段放入cassandra中,因此建议使用kafka consumer而不是flink/其他流,因为我实际上不需要对kafka json数据进行任何处理。因此,我需要您的帮助来理解以

我做了一个poc,其中我使用spark流从卡夫卡读取数据。但我们的组织要么使用ApacheFlink,要么使用Kafka消费者从ApacheKafka读取数据,作为标准流程。所以我需要用Kafka消费者或ApacheFlink替换Kafka流媒体。在我的应用程序用例中,我需要从kafka读取数据,过滤json数据并将字段放入cassandra中,因此建议使用kafka consumer而不是flink/其他流,因为我实际上不需要对kafka json数据进行任何处理。因此,我需要您的帮助来理解以下问题:

  • 使用Kafka consumer,我可以实现与spark streaming或flink相同的连续数据读取吗

  • 考虑到我需要从卡夫卡读取数据,使用avro scehma反序列化,过滤字段并放入cassandra,卡夫卡消费者对我来说足够了吗

  • 可以使用Kafka consumer API创建Kafka consumer应用程序,对吗

  • 如果我只是使用Kafka consumer而不是ApacheFlink,那么我的情况是否有不利的一面


  • 首先,让我们看一下,他们都使用KAKFA的消费API(简单API或高级API)来从Apache卡夫卡的消息中获取他们的工作。 所以,关于你的问题:

    1) 对

    2) 对。Howeer,如果你使用Skar,你可以考虑使用,这有助于我们有效地将数据保存到CasANDARA中

    3) 对


    4) 如上所述,Flink还使用Kafka consumer进行工作。此外,它是一个分布式流和批处理数据处理,它帮助我们在使用Kafka之后高效地处理数据。在您的情况下,为了将数据保存到卡桑德拉中,您可以考虑使用,而不是由您自己编写。

    你也应该考虑使用卡夫卡的流API。这比卡夫卡的消费API强大得多。您计划如何部署应用程序?在你的组织中有没有部署“东西”的系统?该系统的长期计划是什么?您打算继续使用它只是为了将其摄入Cassandra,还是计划对流中的数据执行任何计算?@rmetzer:计划是将其部署在独立的集群上,消费者API作业可以在其中运行。我们没有任何现有的系统来部署东西,这将是一个新的环境。其想法是从卡夫卡读取数据,使用avro将其转换为json,过滤所需字段并存储到cassandra中,无需计算。你的建议会有帮助的。Mh:)很难提出任何建议。这取决于你在团队中拥有的知识。如果他们中的大多数人以前使用过Hadoop纱线,我会使用纱线部署Flink。如果您正在使用自己的系统在集群中部署和监视JVMs,则可以考虑Kafka Streams。实际上,我建议您尝试这两种系统,看看哪些系统更适合您的需要。谢谢您的投入!根据您的回复,我们似乎没有任何内置API在Cassandra中存储数据,以防我使用Kafka consumer API从Kafka读取数据?您可以确认吗?您可以从Confluent.io:或社区使用Kafka Cassandra连接器。