Apache spark 处理ApacheSpark中分区的不良文件夹结构的简单方法

Apache spark 处理ApacheSpark中分区的不良文件夹结构的简单方法,apache-spark,pyspark,hive,hadoop-partitioning,Apache Spark,Pyspark,Hive,Hadoop Partitioning,通常情况下,数据可用的文件夹结构如下: 2000-01-01/john/smith 而不是配置单元分区规范 date=2000-01-01/first_name=john/last_name=smith Spark(和pyspark)在使用Hive文件夹结构时可以轻松地读取分区数据,但使用“坏”文件夹结构会变得很困难,并且涉及regex和其他内容 对于Spark中的分区数据,是否有更简单的方法来处理非配置单元文件夹结构?进行一次性维护以重构文件夹结构可能是有意义的。我看不出Spark是如何绕

通常情况下,数据可用的文件夹结构如下:

2000-01-01/john/smith
而不是配置单元分区规范

date=2000-01-01/first_name=john/last_name=smith
Spark(和pyspark)在使用Hive文件夹结构时可以轻松地读取分区数据,但使用“坏”文件夹结构会变得很困难,并且涉及regex和其他内容


对于Spark中的分区数据,是否有更简单的方法来处理非配置单元文件夹结构?

进行一次性维护以重构文件夹结构可能是有意义的。我看不出Spark是如何绕过一个糟糕的数据结构的。AFAIK目前Spark并没有为分区数据提供任何真正的优化,所以只要您理解语义,就可以将其拆分为字段。