Apache spark 使用spark stream将数据从kafka主题推送到hdfs_Apache Spark_Apache Kafka_Parquet

Apache spark 使用spark stream将数据从kafka主题推送到hdfs

apache-spark apache-kafka

Apache spark 使用spark stream将数据从kafka主题推送到hdfs,apache-spark,apache-kafka,parquet,Apache Spark,Apache Kafka,Parquet,我使用spark submit将kafka主题中的数据写入拼花文件中的hdfs。目录在hdfs中创建，但数据不会写入拼花文件我建立了一个spark会话并定义了一个模式来解析来自kafka主题的数据。使用写流，我创建目录，附加数据，并尝试将数据填充到拼花地板文件中。是否需要在写入流中添加任何参数？我错过什么了吗要求：将卡夫卡主题中的数据写入hdfs中的拼花文件代码： Dschema = StructType([ StructField("custo

我使用spark submit将kafka主题中的数据写入拼花文件中的hdfs。目录在hdfs中创建，但数据不会写入拼花文件

我建立了一个spark会话并定义了一个模式来解析来自kafka主题的数据。使用写流，我创建目录，附加数据，并尝试将数据填充到拼花地板文件中。是否需要在写入流中添加任何参数？我错过什么了吗

要求：将卡夫卡主题中的数据写入hdfs中的拼花文件

代码：

Dschema =  StructType([
                StructField("customerId", IntegerType()),
                StructField("heartBeat", IntegerType()) ,
                StructField("bp", IntegerType())
                ])

    in_df2 = reformed_data.select("parsed.*")
    
    query = in_df2.writeStream \
        .outputMode("Append") \
        .format("parquet") \
        .option("format","append") \
        .option("truncate", "false") \
        .option("path","patients_vital_info") \
        .option("checkpointLocation", "patients_vital_info_parquet") \
        .trigger(processingTime="1 minute") \
        .start()