Apache spark 结构化流式写入不同的拼花文件夹

Apache spark 结构化流式写入不同的拼花文件夹,apache-spark,apache-spark-sql,parquet,spark-structured-streaming,Apache Spark,Apache Spark Sql,Parquet,Spark Structured Streaming,我正在使用spark结构化流媒体来读取卡夫卡主题中的事件,并对其进行处理,然后将其写入拼花地板。我必须根据我在事件中获得的密钥将输出写入不同的文件夹。我尝试使用结构化流媒体示例始终指向特定文件夹。我是否需要为每个文件夹启动流 df.writeStream.format(“parquet”).option(“path”、“path/to/destination/dir”).start()我能够通过创建多个特定于一个表的writeStream来实现这一点 有关详细信息,请参阅,您可以基于键对父目录进

我正在使用spark结构化流媒体来读取卡夫卡主题中的事件,并对其进行处理,然后将其写入拼花地板。我必须根据我在事件中获得的密钥将输出写入不同的文件夹。我尝试使用结构化流媒体示例始终指向特定文件夹。我是否需要为每个文件夹启动流


df.writeStream.format(“parquet”).option(“path”、“path/to/destination/dir”).start()

我能够通过创建多个特定于一个表的writeStream来实现这一点


有关详细信息,请参阅

,您可以基于键对父目录进行分区,这将为每个值创建一个文件夹谢谢,但该键出现在消息中,但对于写入拼花地板,我需要在writeStream.start时指定它。但实际数据将在稍后公布。那么我如何在分区中指定它呢?比如我可以从datafame中读取密钥并使用分区中的值。dataframe.writeStream.format(“parquet”)。选项(“path”,path),但它不起作用