Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 阅读卡夫卡的信息并向HDFS写信_Apache Spark_Hadoop_Apache Kafka - Fatal编程技术网

Apache spark 阅读卡夫卡的信息并向HDFS写信

Apache spark 阅读卡夫卡的信息并向HDFS写信,apache-spark,hadoop,apache-kafka,Apache Spark,Hadoop,Apache Kafka,我正在寻找从卡夫卡(Kafka)读取消息(大量消息,每天大约100B)的最佳方式,在阅读完需要对数据进行操作并将其写入HDFS的消息之后 如果我需要以最好的性能来完成,那么对我来说,从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么 哪种编程语言最适合这样做 我需要考虑使用SARK这样的解决方案吗? 为此,您应该使用Spark streaming(请参阅),它在Kafka分区和Spark分区之间提供了简单的对应关系 也可以使用卡夫卡流(请参见)。Kafka Streams是用于构建应用程序和

我正在寻找从卡夫卡(Kafka)读取消息(大量消息,每天大约100B)的最佳方式,在阅读完需要对数据进行操作并将其写入HDFS的消息之后

  • 如果我需要以最好的性能来完成,那么对我来说,从卡夫卡读取消息并将文件写入HDFS的最佳方式是什么
  • 哪种编程语言最适合这样做 我需要考虑使用SARK这样的解决方案吗?

为此,您应该使用Spark streaming(请参阅),它在Kafka分区和Spark分区之间提供了简单的对应关系


也可以使用卡夫卡流(请参见)。Kafka Streams是用于构建应用程序和微服务的客户端库,其中输入和输出数据存储在Kafka群集中。

您可以使用Spark、Flink、NiFi、Streamset。。。但Confluent正是为此目的而提供的

Kafka Connect API在转换方面有一定的局限性,因此大多数人所做的是编写Kafka Streams作业,以过滤/增强第二主题的数据,然后将其写入HDFS

注意:这些选项将向HDFS写入许多文件(通常,每个Kafka主题分区一个)

哪种编程语言最适合这样做

上面的每一个都使用Java。但是,如果使用NIFI、流集或卡夫卡Connect

,也不需要编写任何代码,还需要考虑进行转换。