Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧_Apache Spark_Pyspark_Parquet_Partitioning

Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧

apache-spark pyspark

Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧,apache-spark,pyspark,parquet,partitioning,Apache Spark,Pyspark,Parquet,Partitioning,我有一个拼花地板数据集，它按年、月、日和小时进行分区。它像dataset/2020/01/01/00/一样存储，对应于dataset/{year}/{month}/{day}/{hour}/。分区的列名不在文件路径中，如dataset/year=2020/month=01/day=01/hour=00/ 是否有任何方法可以读取此数据集，并将年、月、日和小时值作为单独的列包含，或者更好地作为单个时间戳列包含目前，我正试图逐小时迭代所有分区，读取该分区，添加带有时间戳的列，然后创建所有这些分区的并

我有一个拼花地板数据集，它按年、月、日和小时进行分区。它像

dataset/2020/01/01/00/

一样存储，对应于

dataset/{year}/{month}/{day}/{hour}/

。分区的列名不在文件路径中，如

dataset/year=2020/month=01/day=01/hour=00/

是否有任何方法可以读取此数据集，并将年、月、日和小时值作为单独的列包含，或者更好地作为单个时间戳列包含

目前，我正试图逐小时迭代所有分区，读取该分区，添加带有时间戳的列，然后创建所有这些分区的并集。显然，逐个迭代每个分区是非常低效的，特别是因为有几年的数据