Apache spark 处理ApacheSpark中分区的不良文件夹结构的简单方法_Apache Spark_Pyspark_Hive_Hadoop Partitioning

Apache spark 处理ApacheSpark中分区的不良文件夹结构的简单方法

apache-spark pyspark hive

Apache spark 处理ApacheSpark中分区的不良文件夹结构的简单方法,apache-spark,pyspark,hive,hadoop-partitioning,Apache Spark,Pyspark,Hive,Hadoop Partitioning,通常情况下，数据可用的文件夹结构如下： 2000-01-01/john/smith 而不是配置单元分区规范 date=2000-01-01/first_name=john/last_name=smith Spark（和pyspark）在使用Hive文件夹结构时可以轻松地读取分区数据，但使用“坏”文件夹结构会变得很困难，并且涉及regex和其他内容对于Spark中的分区数据，是否有更简单的方法来处理非配置单元文件夹结构？进行一次性维护以重构文件夹结构可能是有意义的。我看不出Spark是如何绕

通常情况下，数据可用的文件夹结构如下：

2000-01-01/john/smith

而不是配置单元分区规范

date=2000-01-01/first_name=john/last_name=smith

Spark（和pyspark）在使用Hive文件夹结构时可以轻松地读取分区数据，但使用“坏”文件夹结构会变得很困难，并且涉及regex和其他内容

对于Spark中的分区数据，是否有更简单的方法来处理非配置单元文件夹结构？

进行一次性维护以重构文件夹结构可能是有意义的。我看不出Spark是如何绕过一个糟糕的数据结构的。AFAIK目前Spark并没有为分区数据提供任何真正的优化，所以只要您理解语义，就可以将其拆分为字段。