Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧_Apache Spark_Pyspark_Parquet_Partitioning - Fatal编程技术网

Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧

Apache spark 在文件路径中未指定列名的情况下将分区列读入数据帧,apache-spark,pyspark,parquet,partitioning,Apache Spark,Pyspark,Parquet,Partitioning,我有一个拼花地板数据集,它按年、月、日和小时进行分区。它像dataset/2020/01/01/00/一样存储,对应于dataset/{year}/{month}/{day}/{hour}/。分区的列名不在文件路径中,如dataset/year=2020/month=01/day=01/hour=00/ 是否有任何方法可以读取此数据集,并将年、月、日和小时值作为单独的列包含,或者更好地作为单个时间戳列包含 目前,我正试图逐小时迭代所有分区,读取该分区,添加带有时间戳的列,然后创建所有这些分区的并

我有一个拼花地板数据集,它按年、月、日和小时进行分区。它像
dataset/2020/01/01/00/
一样存储,对应于
dataset/{year}/{month}/{day}/{hour}/
。分区的列名不在文件路径中,如
dataset/year=2020/month=01/day=01/hour=00/

是否有任何方法可以读取此数据集,并将年、月、日和小时值作为单独的列包含,或者更好地作为单个时间戳列包含

目前,我正试图逐小时迭代所有分区,读取该分区,添加带有时间戳的列,然后创建所有这些分区的并集。显然,逐个迭代每个分区是非常低效的,特别是因为有几年的数据