Apache spark 阅读卡夫卡的信息并向HDFS写信
我正在寻找从卡夫卡(Kafka)读取消息(大量消息,每天大约100B)的最佳方式,在阅读完需要对数据进行操作并将其写入HDFS的消息之后Apache spark 阅读卡夫卡的信息并向HDFS写信,apache-spark,hadoop,apache-kafka,Apache Spark,Hadoop,Apache Kafka,我正在寻找从卡夫卡(Kafka)读取消息(大量消息,每天大约100B)的最佳方式,在阅读完需要对数据进行操作并将其写入HDFS的消息之后 如果我需要以最好的性能来完成,那么对我来说,从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么 哪种编程语言最适合这样做 我需要考虑使用SARK这样的解决方案吗? 为此,您应该使用Spark streaming(请参阅),它在Kafka分区和Spark分区之间提供了简单的对应关系 也可以使用卡夫卡流(请参见)。Kafka Streams是用于构建应用程序和
- 如果我需要以最好的性能来完成,那么对我来说,从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么李>
- 哪种编程语言最适合这样做李> 我需要考虑使用SARK这样的解决方案吗?
也可以使用卡夫卡流(请参见)。Kafka Streams是用于构建应用程序和微服务的客户端库,其中输入和输出数据存储在Kafka群集中。您可以使用Spark、Flink、NiFi、Streamset。。。但Confluent正是为此目的而提供的 Kafka Connect API在转换方面有一定的局限性,因此大多数人所做的是编写Kafka Streams作业,以过滤/增强第二主题的数据,然后将其写入HDFS 注意:这些选项将向HDFS写入许多文件(通常,每个Kafka主题分区一个) 哪种编程语言最适合这样做 上面的每一个都使用Java。但是,如果使用NIFI、流集或卡夫卡Connect ,也不需要编写任何代码,还需要考虑进行转换。