Apache kafka 卡夫卡消费者Vs阿帕奇·弗林克_Apache Kafka_Spark Streaming_Avro_Kafka Consumer Api_Apache Flink

Apache kafka 卡夫卡消费者Vs阿帕奇·弗林克

apache-kafka apache-flink

Apache kafka 卡夫卡消费者Vs阿帕奇·弗林克,apache-kafka,spark-streaming,avro,kafka-consumer-api,apache-flink,Apache Kafka,Spark Streaming,Avro,Kafka Consumer Api,Apache Flink,我做了一个poc，其中我使用spark流从卡夫卡读取数据。但我们的组织要么使用ApacheFlink，要么使用Kafka消费者从ApacheKafka读取数据，作为标准流程。所以我需要用Kafka消费者或ApacheFlink替换Kafka流媒体。在我的应用程序用例中，我需要从kafka读取数据，过滤json数据并将字段放入cassandra中，因此建议使用kafka consumer而不是flink/其他流，因为我实际上不需要对kafka json数据进行任何处理。因此，我需要您的帮助来理解以

我做了一个poc，其中我使用spark流从卡夫卡读取数据。但我们的组织要么使用ApacheFlink，要么使用Kafka消费者从ApacheKafka读取数据，作为标准流程。所以我需要用Kafka消费者或ApacheFlink替换Kafka流媒体。在我的应用程序用例中，我需要从kafka读取数据，过滤json数据并将字段放入cassandra中，因此建议使用kafka consumer而不是flink/其他流，因为我实际上不需要对kafka json数据进行任何处理。因此，我需要您的帮助来理解以下问题：

使用Kafka consumer，我可以实现与spark streaming或flink相同的连续数据读取吗

考虑到我需要从卡夫卡读取数据，使用avro scehma反序列化，过滤字段并放入cassandra，卡夫卡消费者对我来说足够了吗

可以使用Kafka consumer API创建Kafka consumer应用程序，对吗

如果我只是使用Kafka consumer而不是ApacheFlink，那么我的情况是否有不利的一面

首先，让我们看一下，他们都使用KAKFA的消费API（简单API或高级API）来从Apache卡夫卡的消息中获取他们的工作。所以，关于你的问题：

1）对

2）对。Howeer，如果你使用Skar，你可以考虑使用，这有助于我们有效地将数据保存到CasANDARA中

3）对

4）如上所述，Flink还使用Kafka consumer进行工作。此外，它是一个分布式流和批处理数据处理，它帮助我们在使用Kafka之后高效地处理数据。在您的情况下，为了将数据保存到卡桑德拉中，您可以考虑使用，而不是由您自己编写。

你也应该考虑使用卡夫卡的流API。这比卡夫卡的消费API强大得多。您计划如何部署应用程序？在你的组织中有没有部署“东西”的系统？该系统的长期计划是什么？您打算继续使用它只是为了将其摄入Cassandra，还是计划对流中的数据执行任何计算？@rmetzer:计划是将其部署在独立的集群上，消费者API作业可以在其中运行。我们没有任何现有的系统来部署东西，这将是一个新的环境。其想法是从卡夫卡读取数据，使用avro将其转换为json，过滤所需字段并存储到cassandra中，无需计算。你的建议会有帮助的。Mh:）很难提出任何建议。这取决于你在团队中拥有的知识。如果他们中的大多数人以前使用过Hadoop纱线，我会使用纱线部署Flink。如果您正在使用自己的系统在集群中部署和监视JVMs，则可以考虑Kafka Streams。实际上，我建议您尝试这两种系统，看看哪些系统更适合您的需要。谢谢您的投入！根据您的回复，我们似乎没有任何内置API在Cassandra中存储数据，以防我使用Kafka consumer API从Kafka读取数据？您可以确认吗？您可以从Confluent.io:或社区使用Kafka Cassandra连接器。