Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中_Apache Spark_Apache Kafka_Hdfs_Spark Streaming

Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中

apache-spark apache-kafka

Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中,apache-spark,apache-kafka,hdfs,spark-streaming,Apache Spark,Apache Kafka,Hdfs,Spark Streaming,我正在使用spark streaming进行分析。在分析之后，我必须将卡夫卡消息保存在hdfs中。每个kafka消息都是一个xml文件。我不能使用rdd.saveAsTextFile，因为它将保存整个rdd。rdd的每个元素都是kafka消息（xml文件）。如何使用spark在hdfs中保存每个rdd元素（文件）我会用另一种方式来处理这个问题。将转换后的数据流式传输回Kafka，然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS

我正在使用spark streaming进行分析。在分析之后，我必须将卡夫卡消息保存在hdfs中。每个kafka消息都是一个xml文件。我不能使用

rdd.saveAsTextFile

，因为它将保存整个rdd。rdd的每个元素都是kafka消息（xml文件）。如何使用spark在hdfs中保存每个rdd元素（文件）

我会用另一种方式来处理这个问题。将转换后的数据流式传输回Kafka，然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS连接器是开源的，可用或作为的一部分

通过这种方式，您可以将处理与将数据写入HDFS分离开来，从而更易于管理、故障排除和扩展。

我将采用另一种方式。将转换后的数据流式传输回Kafka，然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS连接器是开源的，可用或作为的一部分

通过这种方式，您可以将处理与将数据写入HDFS分离，从而更易于管理、故障排除和扩展