Apache 如何将ParquetReader与包含其他目录的路径一起使用?

Apache 如何将ParquetReader与包含其他目录的路径一起使用?,apache,hadoop,avro,parquet,Apache,Hadoop,Avro,Parquet,我有这样一个hdfs路径结构:_p_ROOT=foo/_p_a=4444/_p_B=1/_p_C=20,其中我的所有拼花文件都位于_p_C.p是一个分区 使用Spark,我可以指定任何级别的路径,例如:仅_p_ROOT、_p_a或_p_B。 例如。: val df=sqlContext.read.parquet(“\P\u ROOT=foo/”) 我的df将有其他目录作为列 现在,我喜欢读没有火花的拼花地板 我正在使用AvroParquetReader,这要感谢 以下是我的代码片段: val r

我有这样一个hdfs路径结构:_p_ROOT=foo/_p_a=4444/_p_B=1/_p_C=20,其中我的所有拼花文件都位于_p_C.p是一个分区

使用Spark,我可以指定任何级别的路径,例如:仅_p_ROOT、_p_a或_p_B。 例如。: val df=sqlContext.read.parquet(“\P\u ROOT=foo/”) 我的df将有其他目录作为列

现在,我喜欢读没有火花的拼花地板

我正在使用AvroParquetReader,这要感谢

以下是我的代码片段:

val reader = AvroParquetReader
  .builder[GenericRecord](path)
  .build()
  .asInstanceOf[ParquetReader[GenericRecord]]

val iter: Iterator[GenericRecord] = Iterator
   .continually(reader.read)
   .takeWhile(_ != null)
如果我的路径一直到_p__C,这就行了。但是,如果我指定一个包含其他目录的路径,我将得到一个空迭代器

所以我的问题是: 当路径不是叶目录时,如何指定读取拼花地板的路径。当然没有火花