Apache spark 结构化流式写入不同的拼花文件夹_Apache Spark_Apache Spark Sql_Parquet_Spark Structured Streaming

Apache spark 结构化流式写入不同的拼花文件夹

apache-spark

Apache spark 结构化流式写入不同的拼花文件夹,apache-spark,apache-spark-sql,parquet,spark-structured-streaming,Apache Spark,Apache Spark Sql,Parquet,Spark Structured Streaming,我正在使用spark结构化流媒体来读取卡夫卡主题中的事件，并对其进行处理，然后将其写入拼花地板。我必须根据我在事件中获得的密钥将输出写入不同的文件夹。我尝试使用结构化流媒体示例始终指向特定文件夹。我是否需要为每个文件夹启动流 df.writeStream.format（“parquet”）.option（“path”、“path/to/destination/dir”）.start（）我能够通过创建多个特定于一个表的writeStream来实现这一点有关详细信息，请参阅，您可以基于键对父目录进

我正在使用spark结构化流媒体来读取卡夫卡主题中的事件，并对其进行处理，然后将其写入拼花地板。我必须根据我在事件中获得的密钥将输出写入不同的文件夹。我尝试使用结构化流媒体示例始终指向特定文件夹。我是否需要为每个文件夹启动流

df.writeStream.format（“parquet”）.option（“path”、“path/to/destination/dir”）.start（）

我能够通过创建多个特定于一个表的writeStream来实现这一点

有关详细信息，请参阅

，您可以基于键对父目录进行分区，这将为每个值创建一个文件夹谢谢，但该键出现在消息中，但对于写入拼花地板，我需要在writeStream.start时指定它。但实际数据将在稍后公布。那么我如何在分区中指定它呢？比如我可以从datafame中读取密钥并使用分区中的值。dataframe.writeStream.format（“parquet”）。选项（“path”，path），但它不起作用