在PySpark中将拼花地板文件作为数据帧的输出写入时,如何在HDFS中创建元数据文件?

在PySpark中将拼花地板文件作为数据帧的输出写入时,如何在HDFS中创建元数据文件?,pyspark,hdfs,schema,parquet,Pyspark,Hdfs,Schema,Parquet,我有一个Spark转换程序,它读取2个拼花文件并创建一个最终数据帧,然后将其写入HDFS中另一个目录中的拼花文件 有没有办法在与HDFS中的拼花地板相同的目录中创建拼花地板的元数据/模式文件 我们需要此元数据/架构文件进行另一个处理。假设元文件的使用者不是拼花地板文件的使用者(由于该架构嵌入拼花地板格式,因此元文件是冗余的),您可以在数据框上使用schema属性,并将其作为字符串写入文件 请注意,您不能将此元文件写入与拼花文件相同的路径,因为尝试读回拼花文件时会出现错误,但可以将其写入父目录

我有一个Spark转换程序,它读取2个拼花文件并创建一个最终数据帧,然后将其写入HDFS中另一个目录中的拼花文件

有没有办法在与HDFS中的拼花地板相同的目录中创建拼花地板的元数据/模式文件


我们需要此元数据/架构文件进行另一个处理。

假设元文件的使用者不是拼花地板文件的使用者(由于该架构嵌入拼花地板格式,因此元文件是冗余的),您可以在数据框上使用
schema
属性,并将其作为字符串写入文件

请注意,您不能将此元文件写入与拼花文件相同的路径,因为尝试读回拼花文件时会出现错误,但可以将其写入父目录