Scala 在不使用Spark的情况下读取拼花地板上的特定列_Scala_Parquet

Scala 在不使用Spark的情况下读取拼花地板上的特定列

scala

Scala 在不使用Spark的情况下读取拼花地板上的特定列,scala,parquet,Scala,Parquet,我试图在不使用ApacheSpark的情况下读取拼花地板文件，我能够做到这一点，但我发现很难读取特定的列。我找不到谷歌的任何好资源，因为几乎所有的帖子都是关于用谷歌的浏览器阅读拼花地板文件的。下面是我的代码： import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.avro.generic.GenericRecord import org.apache.parquet.hadoop.ParquetReader import

我试图在不使用ApacheSpark的情况下读取拼花地板文件，我能够做到这一点，但我发现很难读取特定的列。我找不到谷歌的任何好资源，因为几乎所有的帖子都是关于用谷歌的浏览器阅读拼花地板文件的。下面是我的代码：

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.avro.generic.GenericRecord
import org.apache.parquet.hadoop.ParquetReader
import org.apache.parquet.avro.AvroParquetReader

object parquetToJson{
  def main (args : Array[String]):Unit= {
 //case class Customer(key: Int, name: String, sellAmount: Double, profit: Double, state:String)
val parquetFilePath = new Path("data/parquet/Customer/")
val reader = AvroParquetReader.builder[GenericRecord](parquetFilePath).build()//.asInstanceOf[ParquetReader[GenericRecord]]
val iter = Iterator.continually(reader.read).takeWhile(_ != null)
val list = iter.toList
list.foreach(record => println(record))
}
}

注释掉的case类表示我的文件的模式，上面的代码读取文件中的所有列。我想读特定的专栏

如果您只想读取特定列，则需要在

ParquetReader

builder接受的配置上设置读取模式。（这也称为投影）

在本例中，您应该能够在

AvroParquetReader

builder类上调用

.withConf（conf）

，并在传入的conf中调用

conf.set（ReadSupport.PARQUET\u READ\u SCHEMA，SCHEMA）

其中

SCHEMA

是字符串形式的avro模式