Apache spark 阅读卡夫卡的信息并向HDFS写信_Apache Spark_Hadoop_Apache Kafka

Apache spark 阅读卡夫卡的信息并向HDFS写信

apache-spark hadoop apache-kafka

Apache spark 阅读卡夫卡的信息并向HDFS写信,apache-spark,hadoop,apache-kafka,Apache Spark,Hadoop,Apache Kafka,我正在寻找从卡夫卡（Kafka）读取消息（大量消息，每天大约100B）的最佳方式，在阅读完需要对数据进行操作并将其写入HDFS的消息之后如果我需要以最好的性能来完成，那么对我来说，从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么哪种编程语言最适合这样做我需要考虑使用SARK这样的解决方案吗？为此，您应该使用Spark streaming（请参阅），它在Kafka分区和Spark分区之间提供了简单的对应关系也可以使用卡夫卡流（请参见）。Kafka Streams是用于构建应用程序和

我正在寻找从卡夫卡（Kafka）读取消息（大量消息，每天大约100B）的最佳方式，在阅读完需要对数据进行操作并将其写入HDFS的消息之后

如果我需要以最好的性能来完成，那么对我来说，从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么
哪种编程语言最适合这样做我需要考虑使用SARK这样的解决方案吗？

为此，您应该使用Spark streaming（请参阅），它在Kafka分区和Spark分区之间提供了简单的对应关系

也可以使用卡夫卡流（请参见）。Kafka Streams是用于构建应用程序和微服务的客户端库，其中输入和输出数据存储在Kafka群集中。

您可以使用Spark、Flink、NiFi、Streamset。。。但Confluent正是为此目的而提供的

Kafka Connect API在转换方面有一定的局限性，因此大多数人所做的是编写Kafka Streams作业，以过滤/增强第二主题的数据，然后将其写入HDFS

注意：这些选项将向HDFS写入许多文件（通常，每个Kafka主题分区一个）

哪种编程语言最适合这样做

上面的每一个都使用Java。但是，如果使用NIFI、流集或卡夫卡Connect

，也不需要编写任何代码，还需要考虑进行转换。