Apache spark 使用spark stream将数据从kafka主题推送到hdfs
我使用spark submit将kafka主题中的数据写入拼花文件中的hdfs。目录在hdfs中创建,但数据不会写入拼花文件 我建立了一个spark会话并定义了一个模式来解析来自kafka主题的数据。使用写流,我创建目录,附加数据,并尝试将数据填充到拼花地板文件中。是否需要在写入流中添加任何参数?我错过什么了吗 要求:将卡夫卡主题中的数据写入hdfs中的拼花文件 代码:Apache spark 使用spark stream将数据从kafka主题推送到hdfs,apache-spark,apache-kafka,parquet,Apache Spark,Apache Kafka,Parquet,我使用spark submit将kafka主题中的数据写入拼花文件中的hdfs。目录在hdfs中创建,但数据不会写入拼花文件 我建立了一个spark会话并定义了一个模式来解析来自kafka主题的数据。使用写流,我创建目录,附加数据,并尝试将数据填充到拼花地板文件中。是否需要在写入流中添加任何参数?我错过什么了吗 要求:将卡夫卡主题中的数据写入hdfs中的拼花文件 代码: Dschema = StructType([ StructField("custo
Dschema = StructType([
StructField("customerId", IntegerType()),
StructField("heartBeat", IntegerType()) ,
StructField("bp", IntegerType())
])
in_df2 = reformed_data.select("parsed.*")
query = in_df2.writeStream \
.outputMode("Append") \
.format("parquet") \
.option("format","append") \
.option("truncate", "false") \
.option("path","patients_vital_info") \
.option("checkpointLocation", "patients_vital_info_parquet") \
.trigger(processingTime="1 minute") \
.start()