Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中

Apache spark 使用spark streaming将每个Kafka消息保存在hdfs中,apache-spark,apache-kafka,hdfs,spark-streaming,Apache Spark,Apache Kafka,Hdfs,Spark Streaming,我正在使用spark streaming进行分析。在分析之后,我必须将卡夫卡消息保存在hdfs中。每个kafka消息都是一个xml文件。我不能使用rdd.saveAsTextFile,因为它将保存整个rdd。rdd的每个元素都是kafka消息(xml文件)。如何使用spark在hdfs中保存每个rdd元素(文件) 我会用另一种方式来处理这个问题。将转换后的数据流式传输回Kafka,然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS

我正在使用spark streaming进行分析。在分析之后,我必须将卡夫卡消息保存在hdfs中。每个kafka消息都是一个xml文件。我不能使用
rdd.saveAsTextFile
,因为它将保存整个rdd。rdd的每个元素都是kafka消息(xml文件)。如何使用spark在hdfs中保存每个rdd元素(文件)

我会用另一种方式来处理这个问题。将转换后的数据流式传输回Kafka,然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS连接器是开源的,可用或作为的一部分


通过这种方式,您可以将处理与将数据写入HDFS分离开来,从而更易于管理、故障排除和扩展。

我将采用另一种方式。将转换后的数据流式传输回Kafka,然后使用for Kafka Connect将数据流式传输到HDFS。卡夫卡连接是Apache卡夫卡的一部分。HDFS连接器是开源的,可用或作为的一部分

通过这种方式,您可以将处理与将数据写入HDFS分离,从而更易于管理、故障排除和扩展