Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧
我有一个拼花地板数据集,它按年、月、日和小时进行分区。它像Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧,apache-spark,pyspark,parquet,partitioning,Apache Spark,Pyspark,Parquet,Partitioning,我有一个拼花地板数据集,它按年、月、日和小时进行分区。它像dataset/2020/01/01/00/一样存储,对应于dataset/{year}/{month}/{day}/{hour}/。分区的列名不在文件路径中,如dataset/year=2020/month=01/day=01/hour=00/ 是否有任何方法可以读取此数据集,并将年、月、日和小时值作为单独的列包含,或者更好地作为单个时间戳列包含 目前,我正试图逐小时迭代所有分区,读取该分区,添加带有时间戳的列,然后创建所有这些分区的并
dataset/2020/01/01/00/
一样存储,对应于dataset/{year}/{month}/{day}/{hour}/
。分区的列名不在文件路径中,如dataset/year=2020/month=01/day=01/hour=00/
是否有任何方法可以读取此数据集,并将年、月、日和小时值作为单独的列包含,或者更好地作为单个时间戳列包含
目前,我正试图逐小时迭代所有分区,读取该分区,添加带有时间戳的列,然后创建所有这些分区的并集。显然,逐个迭代每个分区是非常低效的,特别是因为有几年的数据